基于人工智能技术的大数据分析方法研究进展论文

发布时间：2022-02-12 11:21:53 文章来源：SCI论文网我要评论

SCI论文（www.lunwensci.com）:

摘要：受信息技术迅速发展的影响，围绕人工智能技术产生的大数据分析方法开始被广泛应用在各个领域中。目前，该方法研究已经获得了一定成就，不但实现了大数据聚类、分类、关联分析以及预测几项挖掘任务，还在 Spark 等平台上实现了分布式深化学习，促使数据挖掘效率得到了有效提升。基于此，极有必要对如何通过人工智能技术进行大数据分析进行研究探索。

关键词：人工智能技术；大数据分析方法；数据挖掘

Research Progress of Big Data Analysis Methods Based on Artiﬁcial Intelligence Technology
FENG Yanlong
(Shaanxi Institute of Clothing Engineering, Xian Shaanxi 712064)

【Abstract】： Affected by the rapid development of information technology, the big data analysis method generated around artiﬁcial intelligence technology has been widely used in various ﬁelds. At present, the research of this method has achieved some achievements. It not only realizes several mining tasks of big data clustering, classiﬁcation, association analysis and prediction, but also realizes distributed deep learning on Spark and other platforms, which eﬀectively improves the eﬃciency of data mining. Based on this, it is necessary to research and explore how to analyze big data through artiﬁcial intelligence technology.
【Key words】： artiﬁcial intelligence technology;big data analysis method;data mining

0 引言

大数据由于具备样本海量化、数据非结构化和实时性等常规调查数据难以达到的效果，被广泛应用在各个领域当中，是当下人类社会发展过程中最主要的资源，极有必要对其分析方法进行创新研究。而围绕人工智能技术开展的大数据分析其本质目的是想要在有限的时间当中找到信息之间存在的关联价值，从中掌握一些具体的具有隐含性的信息内容，并由此制定出详细计划进行决策。其中最典型的分析方法主要有机器学习、计算智能、深度学习等，所以在研究分析时则应从这几方面着手开展。

1 常见的分析方法

1.1 机器学习

（1）聚类。它能直接把对象分成多个不同组，从而进行高效准确的数据挖掘等。大数据信息基本都是包含所有领域的，因此这就不能将常规聚类计算应用进去，所以有学者提出了映射和规约相互结合的编程形式。这样一来，不但能促进常规聚类算法并行运算，还能提升计算本身的便捷性，高效化促进大数据信息集合与分类。在此基础上，有学者进一步创新了聚类算法，比如通过分布式系统基础构架达到了“K-means”聚类算法，也有通过“MapReduce”编程框架进行了凝聚式层次聚类分析，给重要文件信息的传输带来了良好的保密效果，同时也促进了传输效率提升 [1]。另外，密度计算下的聚类方式，不仅能进一步开展数据预处理，还能找到需要实时整合信息，使其达到集中化处理的效果。未来，在大数据传输和存储要求不断提升下，还需要对聚类算法进行更进一步创新。

（2）关联分析。这主要是为了能及时将各项数据信息之间的联系性找到。当前，最常见的算法主要有两类，即“Apriori”和“FP-Growth”关联规则挖掘 [2]。从根本上看，两者在计算方式上是存在一定差异的，即前者需要预先确定一个算法支持的阈值，再实施筛选；后者则要构建一个频繁模式树，再两次进行数据扫描。前者和后者相比较，不但要再起频繁模式之下构建海量数据样本，还要消耗大量时间，为此当下使用最多的则是后者。关联分析当下在实际领域中的应用，最典型的则要属交通方面。即直接依照汽车的运行轨迹，设计出了能够对各类小文件进行处理的并行频繁模式增长算法，不但能实现时空数据关联分析，减少事故发生率，还能使全局频繁模式树算法速度过慢的问题得到有效解决。

（3）分类。在其作用下，不但能实现海量数据的有效整合处理，强化挖掘效率，还能迅速找到人员想要寻找的信息内容。比如在医疗诊断当中，就可以通过相关数据信息辅助诊断，并利用“MapReduce”编程框架对相关数据进行分析，从而筛查病患携带的基因。

（4）预测。当前大数据预测应用范围比较广泛，比如金融领域中，就可以及时找到市场间的相同点以及差异性，并建立交易模型，实时预测产品价格。或者在智能安全中，还可以应用云计算、分布式文件系统等对网页之中可能会发生的入侵行为进行有效预测与控制，从而最大程度上强化网络安全性。即便如此，这一方面的应用过程还是存在一些严峻问题，如包含有效信息的时间并不多，无法从海量信息中获取有效信息。同时虽然通过预测能够达到一个范围比较大的数据信息内容，但精准性却比较差。

1.2 计算智能

有学者经过研究发现，认为计算智能属于智能领域当中一项十分关键的组成内容，由于其具有良好的启发性和随机性，因此非常适合应用在大数据计算与处理之中，实现原本算法的高效优化。另外，大量研究者都对群智能展开了分析探索，其中有人发现群智能归类是一种直接基于大动态特征大数据分析的重要方法，可以应用粒子群算法加以优化，所以重点就在于怎样通过粒子群算法达到分布式算法，而“MapReduce”正好能实现这一点 [3]。也有学者认为通过群智能可以解决目标函数聚类，其中粒子群算法最为有效，能使整个计算过程中被融入错误技术、效率等因素，使计算结果就实现了大数据集聚类。一些研究者表示可以通过群智能里的工程功能进行优化，通过大数据多模态、大体重、低密度和高速度的特性，应用粒子群优化算法实现有效群搜索，提升大数据的搜索效率，保证分析的精准性。有学者通过专门分析群智能之后发现，“MapReduce” 变成框架当中的分布式也能有效支持其算法开展，并且具有良好效率和精准性。但有学者经过研究发现， “MapReduce”不能被应用到迭代计算之中，所以必须要将“MapReduce”和进化算法当中迭代计算的关联性及时解决，由此则研究得到了遗传算法分布式，在提升算法效率方面效果十分显著，能促进大数据分组的高
效化展开 [4]。

1.3 深度学习

该分析方法不但能被高效化地应用在图像和语言处理之中，还能提升数据运算的基本效率。但由于其能有效处理海量具有密集型的任务，因此在构建模型的过程中，还应迭代运算所有参数，而这则要消耗大量时间。所以，有些学者直接尝试使用“Spark”等平台实施分布式计算与储存，在减少成本消耗方面取得了一定效果。即便如此，实际应用过程中还是非常容易发生因为数据样本质量不高导致难以有效对深度学习数字模型进行持续优化的效果。所以，部分学者则提出了固定模型重用，它能减少对数据样本的需求，保证运算效率。同时，有些研究人员还直接提出了残差学习法，即通过残差函数对深度神经网络训练进行完善，以确保数据获取的精准性。

2 面对的挑战

当前人工智能技术虽然在很大程度上能够给大数据的进一步挖掘、处理和应用带来大量便利化条件，但也会导致大数据分析方法面临更多更加艰难的问题。同时很多可以进行小数据处理的人工智能技术也不能被直接应用到大数据分析之中。为此，从当前的实际情况来看，分布式计算消耗的时间降低与提升算法性能是最主要的两项挑战。

对于前者而言。大数据的典型特征就是算法要开展分布式计算，当下相关平台已经得到了充分应用。但对时间消耗有所影响的因素并非只是平台，还有分布于并行策略。虽然在机器学习当中，特别是计算智能和深度学习这类基于人工智能技术的分析方法能够直接通过精心设计并行和分布式策略减少时间消耗，但因为数据基本都是独立同分布，当下的研究成果也都是基于数据层表面，事实上模型并行的实现十分复杂，所以要采用哪种并行于分布式策略减少时间消耗，就是当下面临的一项严峻挑战。

对于后者而言。大数据分析方法的主要目的就是提升算法性能和减少时间消耗，但这两者基本是无法实现有效平衡的，所以怎样进一步提升算法性能就是当前面临的另一项重大挑战。在这之中，给算法性能带来影响的因素众多，但基本都与算法本身具有很大关系，因此未来则需要对算法加以改进，比如对深度学习、机器学习等算法参数做出合理优化，或者引入新进化机制，再应用到计算智能当中，再或者通过混合多种算法实现。

3 未来的研究方向

当下，人工智能技术是大数据分析的重要手段，但对于存在的很多大数据问题，目前存在的各类分析方法与平台都多少存在一定缺陷，无法有效解决。为此，这就需要明确未来的进一步研究的方向，具体可以从这几点着手开展。

（1）分布式深度学习算法。当下大数据平台通过分布式计算以及数据存储已经能够有效满足各项处理需求。但如何进一步把不断出现的各类新型深度学习模型应用在大数据的分析当中就是未来的重要研究方向。

（2）构建更加先进的大数据平台。大数据分析当前被广泛应用在多个领域中，但其相关分析方法和技术并不成熟，所以对于具体领域，进一步研究出能够有效解决其问题的大数据平台十分关键。比如在分布式优化算法中，平台的应用会直接给其任务计算时间带来影响。

（3）分布式优化算法。在大数据处理当中，分布式计算具有极大优势，尤其是数据越多，其优势就会愈发明显。因为分布式并行计算能够使算法的可扩展程度得到有效提升，且分布式优化算法能使种群多类别特性得以体现，减少局部最优，落实解的搜索，从而提升计算效率 [5]。所以，如何设计和实现基于各平台的计算智能算法，就是未来需要着手解决的关键所在。

（4）完善深度学习模型。为使大数据处理需求得到全面满足，必须有效降低深度学习模型的训练时间。但从目前的实际情况来看，其中还是存在大量问题亟需解决。比如对于常见的分布式计算平台，除了可以减少时间成本消耗，还能不能有效调整深度学习模型，引入其余策略促进深度网络训练，以减少深度网络的通信代价。

（5）完善深度学习参数。在深度学习程度的不断强化下，参数规模也会越来越大，所以如何对其进行优化就是一项亟需解决的关键问题。通过“Spark”，能更进一步展开深度学习训练，利用智能优化算法对其参数进行完善，也能使算法本身的性能得以强化。为此，怎样应用智能算法对其参数进行优化，达到提升算法效率的目的，就是当下十分关键的一个研究方向。

（6）深度神经网络并行训练分配。在“Spark”中，主要是应用的主从架构实施分布式计算，但并非全部的深度神经网络模型都可以在其中实现并行处理。并且在深度学习规模的不断拓展之下，还要对通信效率、节点数量以及负载均衡等进行全面考虑，所以怎样对其并行训练进行有效分配依然是未来的一项重要研究方向。

4 结语

当下以人工智能技术为核心的大数据分析方法在很多领域中都得到了有效运用，为更进一步提升算法应用效果，相关学者针对其有目的的展开了聚类、分类、关联分析和预测研究。同时还以深度学习以及计算智能进行了创新优化，在很大程度上提升了算法的精准性。但受到出现时间较短等方面的影响和限制，导致其依然面临巨大的发展挑战，所以未来还需通过建立更加先进的大数据平台、完善深度学习模型和分布式优化算法等为方向进行深度研究，以实现更加广泛的应用。

参考文献

[1] 刘涛雄,刘骏.人工智能、机器人与经济发展研究进展综述 [J].经济社会体制比较,2018(6):172-178.
[2] 甘翼,王良刚,黄金元,等.大数据和人工智能时代的情报分析和技术探索[J].电讯技术,2018(5):506-513.
[3] 罗平,武斌.基于人工智能的网络舆情大数据传播特征挖掘系统[J].现代电子技术,2020(4):184-187.
[4] 钟卓颖,宋景慧.乡村智能电网大数据分析平台总体构架与应用[J].电测与仪表,2020(9):87-93.
[5] 刘庆杰,王金峰,冯燕茹.计算机网络大数据中的人工智能技术研究:评《实感交互:人工智能下的人机交互技术》[J].机械设计,2020(9):161.

关注SCI论文创作发表，寻求SCI论文修改润色、SCI论文代发表等服务支撑，请锁定SCI论文网！

文章出自SCI论文网转载请注明出处：https://www.lunwensci.com/jisuanjilunwen/35704.html

本文标签：人工智能技术 ,大数据分析方法 ,数据挖掘

发表评论

点击排行

Learning to Explain: An

　可解释性是一个非常重要的标准。机器学习模型...　详细>>

SCI论文范文

中国地方政府环境治理

如何设计有效的环境治理政策, 是学术界和政策...　详细>>

基于人工智能技术的大数据分析方法研究进展论文

相关内容

发表评论

点击排行

SCI论文范文