Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

基于人工智能技术的大数据分析方法研究进展论文

发布时间:2022-02-12 11:21:53 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):
 
 摘   要:
受信息技术迅速发展的影响,围绕人工智能技术产生的大数据分析方法开始被广泛应用在各个领域中。目前,该方法研究已经获得了一定成就,不但实现了大数据聚类、分类、关联分析以及预测几项挖掘任务,还在 Spark 等平台上实现 了分布式深化学习,促使数据挖掘效率得到了有效提升。基于此,极有必要对如何通过人工智能技术进行大数据分析进行研究 探索。

关键词:人工智能技术 ;大数据分析方法 ;数据挖掘

Research Progress of Big Data Analysis Methods Based on Artificial Intelligence Technology
FENG Yanlong
(Shaanxi Institute of Clothing Engineering, Xian Shaanxi 712064)

【Abstract】: Affected by the rapid development of information technology, the big data analysis method generated around artificial intelligence technology has been widely used in various fields. At present, the research of this method has achieved some achievements. It not only realizes several mining tasks of big data clustering, classification, association analysis and prediction, but also realizes distributed deep learning on Spark and other platforms, which effectively improves the efficiency of data mining. Based on this, it is necessary to research and explore how to analyze big data through artificial intelligence technology.
【Key words】: artificial intelligence technology;big data analysis method;data mining

0 引言

         大数据由于具备样本海量化、数据非结构化和实时 性等常规调查数据难以达到的效果,被广泛应用在各个 领域当中,是当下人类社会发展过程中最主要的资源, 极有必要对其分析方法进行创新研究。而围绕人工智能 技术开展的大数据分析其本质目的是想要在有限的时间 当中找到信息之间存在的关联价值,从中掌握一些具体 的具有隐含性的信息内容,并由此制定出详细计划进行 决策。其中最典型的分析方法主要有机器学习、计算智能、深度学习等,所以在研究分析时则应从这几方面着 手开展。

\

1 常见的分析方法

1.1 机器学习

(1)聚类。它能直接把对象分成多个不同组,从而进行高效准确的数据挖掘等。大数据信息基本都是包含 所有领域的,因此这就不能将常规聚类计算应用进去, 所以有学者提出了映射和规约相互结合的编程形式。这 样一来,不但能促进常规聚类算法并行运算,还能提升 计算本身的便捷性,高效化促进大数据信息集合与分 类。在此基础上,有学者进一步创新了聚类算法,比如 通过分布式系统基础构架达到了“K-means”聚类算 法,也有通过“MapReduce”编程框架进行了凝聚式 层次聚类分析,给重要文件信息的传输带来了良好的保密效果,同时也促进了传输效率提升 [1]。另外,密度计 算下的聚类方式,不仅能进一步开展数据预处理,还能 找到需要实时整合信息,使其达到集中化处理的效果。 未来,在大数据传输和存储要求不断提升下,还需要对 聚类算法进行更进一步创新。

(2)关联分析。这主要是为了能及时将各项数据信 息之间的联系性找到。当前,最常见的算法主要有两 类, 即“Apriori”和“FP-Growth”关联规则挖掘 [2]。 从根本上看,两者在计算方式上是存在一定差异的,即 前者需要预先确定一个算法支持的阈值,再实施筛选 ; 后者则要构建一个频繁模式树,再两次进行数据扫描。 前者和后者相比较,不但要再起频繁模式之下构建海量 数据样本,还要消耗大量时间,为此当下使用最多的则是后者。关联分析当下在实际领域中的应用,最典型的 则要属交通方面。即直接依照汽车的运行轨迹,设计出 了能够对各类小文件进行处理的并行频繁模式增长算法, 不但能实现时空数据关联分析,减少事故发生率,还能 使全局频繁模式树算法速度过慢的问题得到有效解决。

(3)分类。在其作用下,不但能实现海量数据的有 效整合处理,强化挖掘效率,还能迅速找到人员想要寻 找的信息内容。比如在医疗诊断当中,就可以通过相关 数据信息辅助诊断,并利用“MapReduce”编程框架 对相关数据进行分析,从而筛查病患携带的基因。

(4)预测。当前大数据预测应用范围比较广泛,比 如金融领域中,就可以及时找到市场间的相同点以及差 异性,并建立交易模型,实时预测产品价格。或者在智 能安全中,还可以应用云计算、分布式文件系统等对网 页之中可能会发生的入侵行为进行有效预测与控制,从 而最大程度上强化网络安全性。即便如此,这一方面的 应用过程还是存在一些严峻问题,如包含有效信息的时 间并不多,无法从海量信息中获取有效信息。同时虽然 通过预测能够达到一个范围比较大的数据信息内容,但 精准性却比较差。

1.2 计算智能

         有学者经过研究发现,认为计算智能属于智能领域 当中一项十分关键的组成内容,由于其具有良好的启发 性和随机性,因此非常适合应用在大数据计算与处理之 中,实现原本算法的高效优化。另外,大量研究者都对 群智能展开了分析探索,其中有人发现群智能归类是 一种直接基于大动态特征大数据分析的重要方法,可以 应用粒子群算法加以优化,所以重点就在于怎样通过粒 子群算法达到分布式算法,而“MapReduce”正好能实现这一点 [3]。也有学者认为通过群智能可以解决目标 函数聚类,其中粒子群算法最为有效,能使整个计算过 程中被融入错误技术、效率等因素,使计算结果就实现 了大数据集聚类。一些研究者表示可以通过群智能里的 工程功能进行优化,通过大数据多模态、大体重、低 密度和高速度的特性,应用粒子群优化算法实现有效群搜索,提升大数据的搜索效率,保证分析的精准性。 有学者通过专门分析群智能之后发现,“MapReduce” 变成框架当中的分布式也能有效支持其算法开展,并  且具有良好效率和精准性。但有学者经过研究发现, “MapReduce”不能被应用到迭代计算之中,所以必须  要将“MapReduce”和进化算法当中迭代计算的关联  性及时解决,由此则研究得到了遗传算法分布式,在提  升算法效率方面效果十分显著,能促进大数据分组的高
效化展开 [4]。

1.3 深度学习

          该分析方法不但能被高效化地应用在图像和语言处 理之中,还能提升数据运算的基本效率。但由于其能有 效处理海量具有密集型的任务,因此在构建模型的过程 中,还应迭代运算所有参数,而这则要消耗大量时间。 所以,有些学者直接尝试使用“Spark”等平台实施分 布式计算与储存,在减少成本消耗方面取得了一定效 果。即便如此,实际应用过程中还是非常容易发生因为 数据样本质量不高导致难以有效对深度学习数字模型进 行持续优化的效果。所以,部分学者则提出了固定模型 重用,它能减少对数据样本的需求,保证运算效率。同 时,有些研究人员还直接提出了残差学习法,即通过残 差函数对深度神经网络训练进行完善,以确保数据获取 的精准性。

2 面对的挑战

         当前人工智能技术虽然在很大程度上能够给大数据 的进一步挖掘、处理和应用带来大量便利化条件,但也 会导致大数据分析方法面临更多更加艰难的问题。同时 很多可以进行小数据处理的人工智能技术也不能被直接 应用到大数据分析之中。为此,从当前的实际情况来 看,分布式计算消耗的时间降低与提升算法性能是最主 要的两项挑战。

         对于前者而言。大数据的典型特征就是算法要开展 分布式计算,当下相关平台已经得到了充分应用。但对 时间消耗有所影响的因素并非只是平台,还有分布于并 行策略。虽然在机器学习当中,特别是计算智能和深度 学习这类基于人工智能技术的分析方法能够直接通过精 心设计并行和分布式策略减少时间消耗,但因为数据基本都是独立同分布,当下的研究成果也都是基于数据层 表面,事实上模型并行的实现十分复杂,所以要采用哪 种并行于分布式策略减少时间消耗,就是当下面临的一 项严峻挑战。

         对于后者而言。大数据分析方法的主要目的就是提 升算法性能和减少时间消耗,但这两者基本是无法实现有效平衡的,所以怎样进一步提升算法性能就是当前面 临的另一项重大挑战。在这之中,给算法性能带来影响 的因素众多,但基本都与算法本身具有很大关系,因此 未来则需要对算法加以改进,比如对深度学习、机器学 习等算法参数做出合理优化,或者引入新进化机制,再 应用到计算智能当中,再或者通过混合多种算法实现。

3 未来的研究方向

         当下,人工智能技术是大数据分析的重要手段,但对于存在的很多大数据问题,目前存在的各类分析方法 与平台都多少存在一定缺陷,无法有效解决。为此,这 就需要明确未来的进一步研究的方向,具体可以从这几 点着手开展。

(1)分布式深度学习算法。当下大数据平台通过分 布式计算以及数据存储已经能够有效满足各项处理需 求。但如何进一步把不断出现的各类新型深度学习模型 应用在大数据的分析当中就是未来的重要研究方向。

(2)构建更加先进的大数据平台。大数据分析当前 被广泛应用在多个领域中,但其相关分析方法和技术并 不成熟,所以对于具体领域,进一步研究出能够有效解 决其问题的大数据平台十分关键。比如在分布式优化算 法中,平台的应用会直接给其任务计算时间带来影响。

(3)分布式优化算法。在大数据处理当中,分布式 计算具有极大优势,尤其是数据越多,其优势就会愈发 明显。因为分布式并行计算能够使算法的可扩展程度得 到有效提升,且分布式优化算法能使种群多类别特性得 以体现,减少局部最优,落实解的搜索,从而提升计算 效率 [5]。所以,如何设计和实现基于各平台的计算智能 算法,就是未来需要着手解决的关键所在。
\

(4)完善深度学习模型。为使大数据处理需求得到 全面满足,必须有效降低深度学习模型的训练时间。但 从目前的实际情况来看,其中还是存在大量问题亟需解 决。比如对于常见的分布式计算平台,除了可以减少时间 成本消耗,还能不能有效调整深度学习模型,引入其余策 略促进深度网络训练,以减少深度网络的通信代价。

(5)完善深度学习参数。在深度学习程度的不断强化下,参数规模也会越来越大,所以如何对其进行优化 就是一项亟需解决的关键问题。通过“Spark”,能更进 一步展开深度学习训练,利用智能优化算法对其参数进 行完善,也能使算法本身的性能得以强化。为此,怎样 应用智能算法对其参数进行优化,达到提升算法效率的 目的,就是当下十分关键的一个研究方向。

(6)深度神经网络并行训练分配。在“Spark”中, 主要是应用的主从架构实施分布式计算,但并非全部的深度神经网络模型都可以在其中实现并行处理。并且在 深度学习规模的不断拓展之下,还要对通信效率、节点 数量以及负载均衡等进行全面考虑,所以怎样对其并行 训练进行有效分配依然是未来的一项重要研究方向。

4 结语

        当下以人工智能技术为核心的大数据分析方法在很 多领域中都得到了有效运用,为更进一步提升算法应用 效果,相关学者针对其有目的的展开了聚类、分类、关 联分析和预测研究。同时还以深度学习以及计算智能进 行了创新优化,在很大程度上提升了算法的精准性。但 受到出现时间较短等方面的影响和限制,导致其依然面 临巨大的发展挑战,所以未来还需通过建立更加先进的 大数据平台、完善深度学习模型和分布式优化算法等为 方向进行深度研究,以实现更加广泛的应用。

参考文献

[1] 刘涛雄,刘骏.人工智能、机器人与经济发展研究进展综述 [J].经济社会体制比较,2018(6):172-178.
[2] 甘翼,王良刚,黄金元,等.大数据和人工智能时代的情报分析 和技术探索[J].电讯技术,2018(5):506-513.
[3] 罗平,武斌.基于人工智能的网络舆情大数据传播特征挖掘 系统[J].现代电子技术,2020(4):184-187.
[4] 钟卓颖,宋景慧.乡村智能电网大数据分析平台总体构架与 应用[J].电测与仪表,2020(9):87-93.
[5] 刘庆杰,王金峰,冯燕茹.计算机网络大数据中的人工智能技 术研究:评《实感交互:人工智能下的人机交互技术》[J].机械 设计,2020(9):161.

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
 

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/35704.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml