Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

基于大数据的数据归档系统论文

发布时间:2024-04-08 10:03:39 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):
 
       摘   要 :随着大数据时代的到来,每天都会产生海量的数据,如果不对这些数据进行归档,就会出现信息丢失、浪费资源 等问题。因此,为了保障大数据时代信息管理系统的正常运行,需要对海量数据进行归档。在对大数据进行归档时,首先要对 其进行分类,然后针对不同类型的数据提出相应的处理方法。本文对基于大数据的数据归档系统展开研究,以供参考。

       关键词 :大数据,数据,归档系统,应用实践

Data Archiving System Based on Big Data

WANG Jian

(China Development Bank, Beijing  100000)

       【Abstract】:With the advent of the era of big data, massive data will be generated every day. If these data are not archived, there will be problems such as information loss and waste of resources. Therefore, in order to ensure the normal operation of the information management system in the era of big data, it is necessary to archive massive data. When archiving big data, it is first necessary to classify it, and then propose corresponding processing methods for different types of data. This paper studies the data archiving system based on big data for reference.

       【Key words】:big data;data;filing system;application practice

       0 引言

       随着大数据时代的到来,数据量的增长速度越来越 快,传统的数据存储方式已经无法满足当前海量数据的 存储需求,因此,如何高效地管理大数据是当前急需解 决的问题。本文主要从分布式文件系统和大数据技术出 发,提出了一种基于大数据的数据归档系统。该系统将海 量数据集中存储在本地,通过分布式文件系统对海量数据 进行统一管理,然后再将数据归档到云存储服务中。

       1 大数据技术

       大数据是指数量庞大、结构复杂、价值密度低、增 长速度快,但又对社会和经济发展具有重要意义的海量 数据。目前,在大数据技术领域中,主要包括 3 种类型 的数据 :结构化数据、非结构化数据和物联网数据。其 中,结构化数据是指以数字形式存储的各类信息,例如 文字、图片等 ;非结构化数据是指无法通过计算机直接 处理的各种类型的数据,例如音频、视频等 ;物联网数 据指以数字形式存储的各类传感器获取的信息,例如温度、湿度、空气质量等。大数据技术包括计算模式、存 储模式和处理模式等。计算模式包括批处理、流计算、 图计算、查询分析 ;存储模式是指将大数据存储在不同 的分布式存储平台中 ;处理模式是指对大数据进行分析 和处理 [1]。

       2 数据归档系统结构

       数据归档系统的结构如图 1 所示, 其主要由多个子 系统组成。

\
 
       数据中心负责对本地的海量数据进行集中存储,并 通过分布式文件系统实现海量数据的存储 ;云存储服务 负责将本地的海量数据集中存储到云服务器中,并将云 服务器作为一个集群,通过集群管理系统对云服务器进 行管理 ;分布式文件系统则负责将云服务器上的数据集 中存储到分布式文件系统中,并通过分布式文件系统实 现海量数据的统一管理 [2,3]。

       本系统中采用了 3 种不同的数据存储方式,即本地 集中存储、分布式文件系统以及云存储,分别负责不同的功能。其中,本地集中存储是由本地文件系统来完 成 ;分布式文件系统是由多台服务器来完成 ;而云存储 则是由云服务来完成。

       3 数据归档系统功能分析

       3.1 下线系统数据留存

       随着大数据技术的发展,越来越多的企业开始使用 分布式文件系统对大数据进行管理,同时也有一些企业 开始着手将数据归档到云存储服务中,以提高自身的数 据处理效率 [4]。因此,为了有效解决下线系统数据留存 问题,本文设计了一种基于大数据的数据归档系统,主 要由在线备份和离线备份两部分组成。

       在线备份 :对于下线系统数据而言, 其数据量相对 较少,因此可以通过在线备份的方式来实现在线数据留 存。在将下线系统的数据归档到云存储服务中之后,可 以先对其进行在线备份处理,然后再进行离线备份。

       对于在线备份而言,其主要的实现方式是将下线系 统中的数据通过网络传输到云存储服务中。具体来讲, 在进行在线备份时,可以采用与下线系统相同的操作方 式。首先是将下线系统中的数据通过网络传输到云存储 服务中来 ;然后是对云存储服务进行离线备份处理 ;最 后是将云存储服务中的数据进行在线备份处理。在整 个过程中需要注意的是,在对云存储服务进行在线备份 时,其最终的备份时间间隔需要大于下线系统数据留存 时间 [5]。

       3.2 在线系统数据减负

       对于大数据系统来说,海量数据的存储会占用大量 的空间,从而使系统资源得不到有效利用。在本系统 中,首先将大量的数据存储在本地,然后再将这些数据 归档到云存储服务中。这一过程将会占用大量的空间, 同时也会占用大量的带宽,使系统运行速度减慢。为了 解决这一问题,可以采用以下 2 种方法。

       (1)采用动态压缩技术对数据进行压缩处理。传统 的压缩方法只能对少量数据进行压缩处理,而且在压缩 过程中会导致大量数据丢失。而本文所采用的动态压缩 技术可以有效地解决这一问题,能够对文件中大部分数 据进行有效的压缩处理,从而减少对系统中存储空间的 占用。

       (2)采用文件系统缓存技术对数据进行缓存。在本 系统中,文件系统是必不可少的组成部分,能够对文件 进行有效的存储和管理,因此可以利用文件系统缓存技 术加快文件的响应速度。同时,该系统还采用了分布式 文件系统技术和缓存技术对海量数据进行存储和管理, 从而减少了传统数据管理方式下占用的大量存储空间, 文件系统缓存技术如图 2 所示。

\
 
       3.3 监管审计可信数据

      大数据的发展给我国带来了极大的便利,与此同 时,也给数据监管和审计带来了很多挑战。大数据时 代,需要对企业的各种业务数据进行监管和审计,可以 利用大数据技术对企业的各个数据进行管理,并通过建 立一套完整的数据审计体系对数据进行监管和审计。

       大数据时代,很多企业都存在着大量的重要数据, 如果不对这些重要数据加以保护,就会被不法分子利 用,从事违法犯罪活动,在这种情况下,很多企业都需 要对数据进行审计。然而由于大数据的特殊性,很多企 业无法像传统企业一样对其进行全方面的审计。为了解 决这一问题,可以建立一套完整的大数据审计体系 [6], 通过这种方式,监管人员和审计人员可以对企业的各项 业务数据进行全面的监管和审计。在这种情况下,可以 将企业的各项业务数据集中起来,并利用大数据技术和 安全技术将其存储在一个分布式文件系统中,然后再将 该文件系统的副本备份到云存储服务中。一旦某个业务 数据发生了变化或丢失,就可以直接利用分布式文件系 统对该业务数据进行更新或恢复。由于这种方式不需要 对企业内部所有的数据进行全面监管和审计,因此可以极大地提高监管审计效率和速度。

       3.4 统一格式、字符集

       随着数据量的不断增大,系统中存在着各种各样的 数据格式,每个格式都有自己的特点,为了让系统能够统 一使用,需要对各个格式进行统一处理。具体做法是对文 件进行切分,将文件划分为若干个子块,然后将子块的数 据值和默认字符集分别存储在不同的文件中。每个子块中 只存储一次,通过系统下发指令将数据写入指定的文件, 这样可以避免数据格式不统一而导致的数据使用混乱。

       由于每个子块都有自己的属性,为了保证数据的一 致性,需要在每个子块中设置一个唯一的标识符来确定 该子块是哪个子块。为了避免标识符不唯一带来的问 题,可以对所有字符串进行编码,在编码时将其转换成 唯一的标识符。采用统一格式后,可以方便地管理各个 格式之间的数据交换和存储,提高数据使用效率。在文 件管理过程中会遇到一些问题 :(1)每个文件中存在多 个格式 ;(2)不同格式之间可以直接相互转换 ;(3)文 件管理过程中需要对每个文件进行识别 ;(4)为了保 证各个格式之间能够相互通信,需要设置不同的消息队 列。这些问题都可以通过统一格式解决 [7]。

       4 数据归档关键技术

       传统数据归档通常采用静态方式对文件进行归档,  这种方式的缺点在于,数据在被归档的过程中可能会因 为某个文件的损坏而丢失。本文设计的数据归档系统将 文件按照一定的规则进行归档,具体地,该系统通过元 数据管理、多副本管理和数据迁移等技术来实现。(1) 元数据管理。元数据是系统中最为重要的内容之一,主 要负责管理所有被归档文件的元数据信息,并对其进行 统一管理。(2)多副本管理是指将多个文件数据按照一 定的规则进行打包和复制。(3)数据迁移主要是指将不 同目录下的不同文件内容进行合并和迁移到同一个目录 下。(4)元数据管理与多副本管理结合。两者相互结 合,能够更好地对大数据进行归档。(5)系统架构。在 数据归档系统中,系统采用分布式文件系统对海量数据 进行存储。该分布式文件系统包括多个节点组成的集群 以及多个存储节点组成的分布式块存储设备。此外,为 了保证节点的可扩展性和高可靠性,在集群中采用了负 载均衡和故障转移等技术。在云存储服务中,由于需要 将大量数据存储到云端,因此需要采用分布式云存储技 术保证云存储服务的高可靠性。

       5 大数据的数据归档系统的技术过程

       大数据时代,数据的数量和类型都呈现了爆炸式的 增长,大量的数据需要归档保存,以便更好地管理和检索。在过去,数据归档一般是基于关系型数据库和文件 系统的。然而, 随着互联网技术和 Web 服务技术的发 展,数据量已经远远超出了这些数据库系统能够承载的 能力。在这种情况下,如果继续使用传统的数据归档系 统,将会产生无法估计的成本。因此,人们开始关注面 向大数据时代的数据归档系统。

       大数据时代,数据归档系统不仅要支持高可用性, 还 要具备高扩展性。首先要做的是建立一个通用数据归档系 统(GPLS)实现多个数据库之间的数据共享和交换。具 体来说, GPLS 由 3 部分组成 :元数据管理、数据迁移、 数据归档。元数据是数据归档系统中最基础的组成部分,  也是用户访问和操作的基本元素。元数据管理主要包括以 下几个方面 :元数据的采集、组织和管理 ;元数据的搜索 和检索 ;元数据的访问控制。元数据采集 :采集大量的原 始文件和记录,并对其进行组织,可以使用自动文件夹方 式或使用特定软件来实现 ;元数据组织 :在将文件和记录 组织到文档中时,需要对其进行合理的组织,以便用户可 以方便地使用。例如,可以使用XML,JSON 等来组织。

       6 结语

       随着大数据时代的到来,数据量正在不断增长,如 何有效地管理和利用这些数据是当前急需解决的问题。 本文从分布式文件系统和大数据技术出发,设计了一种 基于大数据的数据归档系统,该系统将海量数据集中存 储在本地,通过分布式文件系统对海量数据进行统一管 理,然后再将这些数据归档到云存储服务中。该系统具 有较强的扩展性和容错性,能够对大数据进行有效处理 和管理,因此该系统具有较好的应用前景。

       参考文献

       [1] 陈忠煜.基于大数据的医院电子档案归档管理系统研究[J]. 自动化技术与应用,2022,41(1):162-166.
       [2] 刘媛媛,何文春,王妍,等.气象大数据云平台归档系统设计及 实现[J].气象科技,2021,49(5):697-706.
       [3] 高雅萍,潘析非.中国蓝云通用数据归档平台建设与应用[J]. 电视技术,2023,47(4):15-18.
       [4] 常国帅.金融历史数据归档与查询系统设计与实现[D].北京: 北京邮电大学,2022.
       [5] 韩娟,戚文来.山东省遥感影像数据管理系统的建设与应用 [J].中国档案,2021(7):70-71.
       [6] 吴晓燕.应用系统的数据日志管理[J].电子技术与软件工程, 2021(14):190-192.
       [7] 王强,吴志杰.业务系统与档案管理系统归档集成框架:构 建与内涵解析[J].中国档案,2021(3):77.

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/77011.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml