Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

论多模数据库在未来选型中的重要性论文

发布时间:2023-03-01 10:09:43 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)

  摘要: 多模是指数据库的多种存储模式,人们熟知的 Oracle、MySQL 都是具有代表性的关系型数据库, 其最基本的特点是支持 ACID,存储模式是行存储,即一条记录为一行。ACID 是数据库事务正确执行的 四个基本要素的缩写, 包括原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性 (Durability) 。一个支持事务(Transaction) 的数据库, 必须具有这四种特性, 否则在事务过程(Transaction processing)中无法保证数据的准确性,进而导致交易过程可能达不到交易方的要求。在 2010 年互联网浪 潮再度兴起时,关系型数据库尤其是商用数据库难以满足互联网业务场景的需求。互联网业务场景诉求主 要呈分布式,可扩展。可扩展性和一致性在一定程度上存在冲突,原因是受到 CAP 原则又称 CAP 定理的 限制。CAP 原则指的是在一个分布式系统中, 一致性(Consistency)、可用性(Availability)、分区容错性 (Partition tolerance)这三个要素最多只能同时实现两点,不可能三者兼顾。正因如此,为了解决扩展性而 放弃一致性,保留可用性,采用最终一致性来支持业务,这类数据库被人们称之为 NoSQL 数据库。

  关键词: 多模,数据库,CAP,ACID

  On the importance of multimode database in future type selection

  Xue Xiaogang

  (Ouye Cloud Commerce Business Co., Ltd., Shanghai, 201999)

  Abstract: Multimode refers to a variety of storage modes of database. Oracle, mysql are all the most representative relational databases. Their most basic feature is to support acid, and their storage mode is row storage. That is, a record is a row. ACID, an abbreviation for the four basic elements of the correct execution of database transactions. Including: atomicity, consistency, isolation and durability. A database supporting transaction must have these four characteristics, otherwise the correctness of data cannot be guaranteed in the transaction processing, and the transaction process is likely to fail to meet the requirements of the transaction party. When the Internet wave rose again in 2010. relational databases, especially commercial databases, did not meet the needs of Internet business scenarios. Internet business scenarios are mainly distributed and scalable. There is a certain degree of conf lict between scalability and consistency. The reason is limited by CAP principle, also known as CAP theorem, which refers to consistency, availability and partition tolerance in a distributed system. CAP principle refers to that these three elements can only realize two points at most, and can't give consideration to the three. Because of this, in order to solve scalability, consistency is abandoned, availability is preserved, and final consistency is used to support business. We call this kind of database NoSQL database, which means not only SQL.

      Key words: multi-mode; database; CAP; ACID

  一、数据模型的现状

  关系型数据库诞生的起因是早期没有数据库, 只有磁盘存储文件,而且是顺序写入,不能随机删 改查,因此出现了文件系统。但是,文件系统不支 持多个用户对文件的操作。这时,出现了关系型数 据库。最早的数据库存储模式是行存储。在互联网、 云时代背景下,数据库单一模式存储无法满足业务 场景需求, 需要列存、文档、图、时序、全文检索, 甚至区块链的结构与特性等,每一种都是一种非关 系型数据结构 [1]。因此, NoSQL 与NewSQL 应运而生。 从图 1 可以看出,关系型是以一致性方向主导的,而 NoSQL 是在扩展性上主导的,但是各自都在向对 方的发展方向靠拢,最终形成多模的数据库形态。

\

 

  二、数据类型应用场景

  (一)行式数据的场景

  在传统行业固定的业务场景中,需明确行列关 系的数据存储和处理严格执行ACID的结构化数据。 行式是最为常见和最好理解的数据类型之一。人们 的银行流水、学生成绩单等都属于行式数据。而伴 随着非明确定义的数据结构的发展与完善,关系型 数据已无法满足新时代的数据库构建需求,半结构 化数据的解决方案应运而生。


\

 
  (二)列式数据的场景

  在分析领域,列式数据的优势较为明显。数据 分析就是对少量列的聚合, 如 SUM、COUNT、AVG。 在这种场景下,利用行式存储也能完成,但是会将 其他多余的列也读取一遍,如图 2.

\

 

  因为行存不能跳过其他列,所以从 C1 到 C2. 必须读取 D1、E1、F1……

  如果数据是列式存储的,那么将会显著提高 效率, 省去冗余的运算, 代表为 HBase 及 Oracle InMemory。尤其 InMemory 的特性是将关系型数据 库的行存数据在内存中自动转换成列式存储。即使 是普通的 PC 也有每秒一亿行级别的运算效果。因 此,列式存储最大的应用场景就是数据分析,即对 数据少量属性的聚合。举例来说,网上热搜就是 对新闻的点击率进行频次累加,并进行 TOP 排名的 倒序展示;再比如,我国有 6 亿人月平均收入在 1000 元以下,这个数据就是对全国人口的年收入 进行求和再除以月份得到的平均值。这里提到的频 次和平均是待分析样本的一个属性。

  1.HATP 的概念

  近年最热门的技术和概念之一是 HATP,行列 混存的最终实现体就是 HATP。相对于其他数据库 类型,列式存储的意义非同一般,能够让数据库在 处理 OLTP(在线交易)的同时具备 OLAP 的数据分 析功能,不再需要读写分离,甚至不再需要应用复 杂的 hadoop 技术就可以满足用户需求 [2]。

  2.HATP 的实现

  上文提到 Oracle 是在内存中完成的,MySQL 则是采用插件形式完成的。MySQL 使用了一个叫 Heatwave 的插件,从库的数据全部是列式存储, 主从数据库实时同步。当遇到分析类的 SQL,可解析该 SQL 到从库上执行分析,这样就实现了主库行 存, 从库列存的效果, 从而实现了 HATP 的架构 [3]。

  (三)键值模式的数据场景

  键值模型的数据库代表是 Redis,其模型为 Key-Value,即一个主键(可以是字符串、可以是 哈希、可以是集合等形式)保持唯一定义,后面带 有这个主键对应的值。最重要的一点是,其存储介 质都是内存,因此大部分场景是用来充当缓存。比 如,人们访问、登录网站时,网站需要记录人们的 用户名、密码及权限,在多个页面跳转时则需要每 个页面再次检查这些信息,如果都是从数据库去校 验,那么数据库压力就会随着用户数量的上升而激 增,从而影响正常的业务订单提交。如果把这些用 户名密码及权限储存在 Redis 上,由于用户名本身 是唯一的,因此可以采用用户名作为 Key,快速读 取会话信息。Oracle 和 MySQL 等数据库为 KV 类型 的数据提供了支持。

  (四)文档模式的数据场景

  文档模式的数据库是一种松散型的数据存储模 式,不要求每行数据的列保持一致,而是按需存 储,有就存储,无可以不定义,需要时再添加。比 如,网站要求用户注册时,有些信息是必填,如用 户名和密码,但有些是选填,如电话、QQ、邮箱、 爱好,这时可以采用文档型存储。再比如,游戏行 业的特点是需求变化快,为了保持玩家的新鲜感, 开发人员需要不停地往游戏中注入新元素。若使用 传统的关系型数据库来存放这些数据,可能经常需 要做表结构变更。这种数据类型的数据库领域称之 为 JSON。文档型数据库代表是 Mongodb。目前, Oracle、MySQL、PostgreSQL 都做到了对 JSON 的 支持,松散型的数据结构常应用于游戏、日志等场 景,主流数据库都进行了兼容适配。

  (五)图数据模式的数据场景

  在社交领域,人们需要发掘人与人之间的关系, 看社交图谱,甚至进行人脉挖掘与推荐,这方面的 代表产品是脉脉、Linkin。人们还需要通过企业法 人了解企业与人的关系、企业与企业的关系,这方 面的代表产品是企查查。这是一种数据模型,而要 支持这种模型,就必须采用不同的数据结构。新的 数据库派生了图数据库,其代表产品是 Neo4J。采 用关系型数据库难以深度遍历大量复杂且相互连接 的数据,响应时间较长。而图数据库的模型定义使 得拓展关系变得非常容易。

  CREATE

  (n1 : 故 事 {name: " 刘 备 "}) -[: 兄 长 {relationship:" 兄长 "}]-> (n2: 故事 {name: "

  关羽 "}),

  (n2) -[: 兄长 {relationship:" 兄长 "}]-> (n3: 故事 {name: " 张飞 "}),

  (n1) -[:兄长 {relationship:"兄长"}]-> (n3),

  (n1) -[: 主公 {relationship:" 主公 "}]-> (n4: 故事 {name: " 赵云 "}) ,

  (n1) -[: 对手 {relationship:" 对手 "}]-> (n5: 故事 {name: " 曹操 "})

  MATCH (n: 人物 { name:" 刘备 "})-[: 关系 {relationship:" 兄长 "}]->(n1) RETURN n1

  MATCH (n: 人物 { name:" 刘备 "})-[: 关系 *2 {relationship:" 兄长 "}]->(n1) RETURN n1

  注意,扩展几层关系只要修改相应的数字即可。 目前,已有 Oracle 这样的数据库支持图数据库的 类型,兼容了图数据库。

  (六)时序数据模式的数据场景

  随着 5G 时代的到来,物联网模型具备万物互 联功能,这主要体现在电力行业、化工行业等各类 型实时监测、检查与分析设备所采集、产生的数据 方面,其特点是采集点多,可能是几万乃至几十万 个采集点。传统关系型数据库要想每秒写入千万级 别的数据非常难,时序数据库则可以解决这些问题, 特点包括以下内容。

\

 

  第一,所有采集的数据都是时序的;第二,数 据都是结构化的;第三,一个采集点的数据源是唯 一的;第四,数据很少有更新或删除操作;第五, 数据一般是按到期日期来删除的;第六,数据以写 操作为主,读操作为辅;第七,数据流量平稳,可 以较为准确地计算;第八,数据都有统计、聚合等 实时计算操作;第九,数据一定是在指定时间段和 指定区域内查找的;第十,数据量大,一天的数据 量就超过 100 亿条;第十一,数据可以少量丢失, 不影响总体的数据样本与统计分析。

  时序数据库的代表产品是 Influxdb,目前兼 容时序数据库的有 Oracle、PostgreSQL 等。

  (七)区块链的数据场景

  随着区块链技术的兴起,不可窜改的场景得以 实现。在信通院发布的未来数据库趋势中,数据库 兼容区块链的特性是对数据库提出的要求。部分数 据库的发布版本中已经初步具备了这样的功能。

  三、多模数据库的问题

  不同类型的数据库能够解决不同场景的问题, 但是随着场景的融合,要解决不同场景的问题,就 要将多种数据库组合使用,这对企业来说成本巨大, 对人员的要求也较高,学习成本较高,团队人才要 求提高。因此,每个数据库厂商都在竭尽全力丰富自己的产品以支持更多的数据类型和业务场景。从 图 3 的世界数据库排名来看,行业人员都在多模的 战略上进行开发。即使是 Oracle 也支持了其他模 式的主要特性,没有 100% 兼容每个细节。

\


 

  多模是数据库的辅助支撑,是关系型数据库对 外的延展和扩充,其核心竞争力主要在于在线交易, 如在线交易产生订单,就可以利用订单进行 GMV 分 析(列式分析) 、通过订单生成质保书(区块链) 、 通过订单分析资金来源(图数据库)如图 3.

  四、结语

  经过各种介绍和说明,可见多模是云时代数据 库的趋势,也是各企业的争夺焦点。该观点在信通 院 2021 年 6 月的《数据库发展研究报告》中提出。

  如果有大量的人员配备,就可以充分发挥每种 数据库的优势,使其在各自领域发挥作用,丰富技 术储备,推动数据库架构的日益完善。

  【参考文献】

  [ 1 ] 河 海 大 学 . 面 向 负 载 感 知 的 多 模 数 据 库 ArangoDB参数调优的方法:CN202210365961.7 [P].2022-07-05.

  [2]瞿新泉.多模数据整合:结构映射与空间分解[D]. 杭州:浙江大学,2013.

  [3]王劲林,井丽南,陈晓,尤佳莉. 面向多模态网络 的可编程数据处理方法及系统设计[J]. 通信学 报,2022(4).

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/52233.html
本文标签: 多模 ,数据库 ,CAP ,ACID

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml