Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

云计算环境下大规模图数据处理技术的相关思考论文

发布时间:2023-03-03 16:57:06 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)

  摘要:云计算的使用推动了IT产业的发展。当下,信息技术快速发展,生物信息网络及WEB网络等全新网络模式的快速应用,对大规模图数据处理提出了全新的要求和需求。在这样的时代背景下,需要分析基于云计算模式,如何提高大规模图数据的处理效率。因此,本文对云计算环境下大规模图数据的处理优化进行全面分析,分析研究云计算图数据处理技术的具体应用。

  关键词:云计算环境,大规模图,数据处理技术,相关思考

  Thoughts on Large-scale Graph Data Processing Technology in Cloud Computing Environment Lu Ting

  (Huawei Technology Co.,Ltd.,Shanghai,200127)

  Abstract:The use of cloud computing has driven the development of the IT industry.At present,the rapid development of information technology and the rapid application of new network modes such as biological information network and WEB network have put forward new requirements and demands for large-scale graph data processing.In such an era,it is necessary to analyze how to improve the processing efficiency of large-scale graph data based on cloud computing mode.Therefore,this paper makes a comprehensive analysis on the processing optimization of large-scale graph data under the cloud computing environment,and analyzes and studies the specific application of cloud computing graph data processing technology.

  Key words:cloud computing environment;large-scale graph;data processing technology;related thinking

  一、引言

  在计算机产业中,图是一种使用较为广泛的抽象数据结构模式,图的结构和语义比线性表更加复杂,但是能直观地展示相关信息与数据。因此,当下大规模的图数据处理已经成为必然的发展趋势。在新型网络中,大量的图文是必然的,要想让新型网络模式可以实现快速、高效的使用,就需要全面优化大规模图数据的处理方案,优化处理的效果。因此,在当前云计算快速发展的时代背景下,全面优化使用大规模图数据处理技术具有非常重要的意义[1]。

  二、云计算

  (一)产业发展速度飞快,催生了全新的经济增长点

 

\
 

  2021年,我国的云计算产业规模达到了8600余亿元,至2022年,我国云计算企业有了更加出色的表现,阿里云超过100%增长保持了七个季度不中断,付费用户达到90万人,还有一些云计算厂商的业务收入也在翻倍式增长,如百度云和腾讯云等。越来越多基于云计算的大数据企业正迅速发展,促进了新模式及新业态的形成[2]。

  (二)关键技术发展较快,核心能力建设取得突破进展

  现阶段,我国云计算龙头企业已经拥有百万余台的集群服务器,部分指标体系也达到了国际上的发达水平。同时,骨干企业在不断开发自身的大数据平台,在国际数据及云计算产业中做出了突出的贡献,例如在ITU等组织体系中制订了较多的标准体系[3]。

  (三)云计算逐渐被市场接纳,应用范围进一步扩展

  从用户群体的角度分析,初创型企业以核心的经营活动为主,希望通过云计算技术控制自身的IT成本。就行业领域而言,云计算和大数据技术更多应用于互联网服务行业,但也表现出延伸到金融、制造、医疗健康和政府等领域的趋势,如此便有了全新的解决方案,可在不同场景中应用。

  (四)降低创新创业的门槛,为双新创业的快速发展提供支持

  当下,云计算和大数据技术体系在不断地发展和普及,这导致信息化成本及行业准入门槛大幅度降低。许多中、小、微型企业在引入云服务之后,信息化成本得以显著降低。随着云计算和大数据技术的进一步发展,一些新型的经济模式应运而生,分享经济就是最典型的例子之一,为广大企业与个人提供了丰富的资源渠道,并使增值业务逐渐朝着多元化的方向转变。字节跳动、拼多多等是其中具有代表性的产物,它们直接服务上亿规模的用户群体,发展速度极快[4]。

  三、云计算的相关技术

  (一)海量分布式存储技术

  海量分布式存储技术是云计算存储应用最广泛的措施之一,海量分布存储技术自身具有经济效益较高、安全性较强等一系列优势,可以有效提高云计算数据的存储量[5]。

  (二)数据管理技术

  在需要使用大量数据进行提取和分析存储的场景下,如果不能进行有效的数据管理,以防止出现云计算数据损失的情况,就会导致用户遭受较大的损失。由此可见,云计算数据管理技术是非常关键的。

  (三)并行编程模式

  云计算并行编程模式的高效应用,可以对云计算中同时运作的服务进行合理的编程控制,全面推动云计算执行多个并列程序,全面提高云计算的实际质量和效率[6]。

  四、大规模图数据处理

  (一)问题分析

  CNNIC数据显示,2020年,我国网页数量已超过千亿,年均增长率为60%,随着互联网社会化媒体服务的快速发展和完善,如脸书、QQ空间和微信等软件的出现,图数据的容量大幅度提升。本文中提出的大规模图数据,是对于单个图的大规模,一般可以达到百亿以上的顶点,这为海量数据分析计算提供了重大机遇。本次研究以搜索引擎中使用较多的PAGERANK算法为实际的内容,对于不同网站的具体得分,需要通过网站中的超链接关系进行相应的统计分析。在网页用顶点表示,网页间的连接关系用有向边表,按邻接图形式的百亿点和千亿边,假设所有顶点和出度边的存储空间均为一百字节,整个图的空间将达到PB级别,如此大的图,在数据保存、发布、检索和处理时需要的时间及实际的空间支出明显超过了传统数据库所能承受的范围,因此,数据的保存、搜索、发布、检索等,一直是急需解决的难题[7]。

  (二)采用云计算环境处理大规模图的优势

  云计算技术是网格运算、分布式运算、并联运算、效用设计、互联网储存、虚拟化等前沿计算机技术与互联网信息技术发展相结合的结果,具备广泛的适应性。利用云计算环境对大量的信息进行有效管理,是个相当有潜力的方向,其优点主要体现在以下几点。第一,海量的数据保存与维护功能。大规模图的信息量可达PB量级,虽然无法直接从常规的文件系统或数据库中保存,但由于云计算环境中采用的是分布式存储模式,因此能够汇聚成百上千台普通服务器的储存空间与计算能力,提供高容量的存储服务,高效存储和管理大量的图数据。云计算环境下的并发管理、一致性操作、数据备份与安全性的控制策略,能够为图数据的维护管理提供保证。第二,超强的分布式与并行处理能力。运用云计算分布与平行处理的特性,能够将一个大图划分为几个子图,并针对每一张大图表的任务,将其划分成几个针对子图的处理任务。发挥云计算分布式的并行运算能力,可以明显增强对大规模图像的处理功能。第三,良好的可伸缩性和灵活性。从科技角度和经济视角来讲,云计算环境灵活性较强,非常适合解决数据信息量弹性改变的大规模图问题。云计算环境一般由廉价的通用计算机系统所组成,随着图数据规模的日益扩大,能够通过向云端动态增加节点来扩充储存能力和运算资源,但并没有对传统并行机方式进行大量投入[8]。

  (三)技术挑战

  虽然采用云计算对大规模图数据的管理起到了较为显著的作用,但云计算技术作为一种新的计算架构,它自身尚处在成长时期,要在云计算环境下实现图数据处理,仍有不少重要技术难题有待克服。图运算和分布式并行处理往往包含巨量重复的过程,要求通过大规模的迭代进行数据通信,而关于联机事务处理和使用的传统方法也很难直接运用在图处理过程中。目前存在着两大问题,一是图运算的高耦合度。在一个图中,数据之间是彼此联系的,图的所有计算过程也是彼此联系的。在图计算的并行算法中,对存储器的使用显示出较低的局部性。对几乎每一顶点间都是相连的图形来说,难以将其划分为几个完全单独的子图形或进行单独的并行处理。二是“水桶效应”问题愈演愈烈,即先完成的任务需要等待后完成的任务及处理速度最慢的任务,这形成了整个体系的最大成本约束问题。为提升执行质量,可以采用多种优化方法。
 

\
 

  五、云计算环境模式下大规模图数据处理技术的优势

  (一)有利于海量数据的存储和维护

  大规模的图数据处理技术可以处理PB级别的图数据模式,这样的处理模式远远超过了传统文件系统和数据库的效率,因此,PB级别的数据量无法在传统的文件系统中进行处理。云计算处理模式可使用分布式存储的方式来实现大规模图数据的存储,利用大规模的图数据处理体系,可以保障数据的一致性,提高安全性和稳定性[9]。

  (二)提高大规模图数据应用性

  根据云计算分布特点的处理模式,对图数据进行分割处理,将图数据划分成不同的子图,让各个子图实现有效的运用,优化数据的实际应用效果。(三)根据不同的情况,合理处理大规模图数据从技术角度和经济角度进行分析,云计算环境本身具有良好的伸缩性与灵活性,可以动态添加节点,实现存储容量的快速扩大,并快速处理大规模的图数据。

  (四)云计算环境模式下大规模图数据处理技术的应用

  图本身是一种非线性的数据结构类型,自身具有非常显著的多对多结构体系,需要让图数据的表达更加清晰快速。在大规模图数据的管理使用过程中,应用的数据类型主要是单图模式和超图模式,单图和超图的区别在于存储的格式具有差异。对云计算图数据的存储体系来说,构建大规模的图形体系,可根据数据的特点进行合并结合,提高实际的读取效率。使用大规模的图数据存储技术,可提高实际的处理效率。

  (五)根据云计算的图数据分割,实现数据的分割处理

  图数据本身具有连通性的特点,可以全面提高图数据的计算耦合性。对完整的大图进行分割处理,在分割的具体过程中需要考虑数据的通过性和均衡性,保证子图中实现有效连接,让每一个子图都处在一个稳定性均衡的状态。

  (六)基于云计算图数据计算模型,对图数据进行计算处理

  在云计算环境体系中,图数据计算的模型可以划分为两种,MAP REDUCE模型和BSP模型。第一是MAP REDUCE模型,根据大规模的图数据特点及MAP REDUCE的模型特点进行分析,将大规模图数据的计算划分成MAP任务和REDUCE任务。在MAP的任务模式中,对数据进行合理的计算分析,输出对应的KEY值。在REDUCE的任务模式中,对每一个数据进行处理,得到需要的结果。第二是BSP模型,对BSP的模型进行大规模的数据计算分析,了解图数据计算可能出现数据崩溃的情况,并从实际的消息通信角度进行分析,计算大规模图数据,得到对应输出值的具体大小。

  六、结语

  结合以上内容进行分析,可以充分了解在云计算的模式下,需要通过图数据的存储模式、计算机模型和分割方法等,最大限度地、高效地处理大规模的图数据。因此,在云计算的模式下,合理地使用大规模的图数据处理技术是非常关键的。

  【参考文献】

  [1]刘沛.云计算环境下大规模图数据处理技术研究[J].电子世界,2021(19).

  [2]王渊.基于云计算的大规模图数据处理技术研究[J].电脑知识与技术,2017(34).

  [3]赵威.云计算环境下的大规模图数据处理技术研究[J].科技传播,2017(19).

  [4]刘瑞玲.浅谈云计算环境下的大规模图数据处理技术[J].科技视界,2016(14).

  [5]刘小铭,李宗辉.云计算环境下大规模数据处理技术研究[J].湖南城市学院学报(自然科学版),2016(02).[6]李慧玲.基于云计算环境下的大规模数据处理技术研究[J].电子测试,2016(01).

  [7]王兵,池云.探究云计算环境下的大规模图数据处理技术[J].电脑知识与技术,2015(32).

  [8]吴东荣.云计算环境下的大规模图数据处理技术思考[J].电脑知识与技术,2015(28).

  [9]李渊.浅析云计算环境下的大规模图数据处理技术[J].中国高新技术企业,2014(09).

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!


文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/52428.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml