SCI论文(www.lunwensci.com)
摘 要 :随着新技术和新需求以及新应用场景的出现,大数据分析技术的应用愈发广泛,同时基于大数据分析技术的数据 安全也面临更多新的挑战。本文首先分析了数据安全在大数据中的重要性,并从大数据分析技术与机器学习之间的关系、基于 大数据分析技术的机器学习具体应用两个方面对基于大数据分析技术的机器学习的运用原理展开分析,希望为从业者提供一定 的参考。
Data Security and Machine Learning Research Based on Big Data Analysis Technology
LI Fengming
(Rizhao Taxation Bureau of the State Taxation Administration, Rizhao Shandong 276800)
【Abstract】:With the emergence of new technologies, new demands and new application scenarios, the application of big data analysis technology is becoming more and more extensive. At the same time, data security based on big data analysis technology also faces more new challenges. This paper first analyzes the importance of data security in big data, and analyzes the application principle of machine learning based on big data analysis technology from two aspects: The relationship between big data analysis technology and machine learning, and the specific application of machine learning based on big data analysis technology, hoping to provide some reference for practitioners.
【Key words】:big data;Hadoop;data security;machine learning
0 引言
机器学习作为一种交叉学科,可以被应用于很多领 域,例如语音识别、诈骗监测、垃圾邮件监测和人脸识 别等,机器学习可以将演绎学习、归纳学习、类比学习 和机械学习不断丰富到学习策略中,在大数据的现代环 境中,数据安全与机器学习值得受到广泛关注,从而保 证用户的信息安全。
1 数据安全在大数据中的重要性
1.1 新技术带来的挑战
如今数据的处理能力和存储规模由于可视化技术、 数据深度挖掘和分布式计算存储等新技术得到了数据资 源的提升和发展,同时也面临了数据安全的新挑战,例 如对于云端的存储功能,由于数据过于庞大并且云端具 有用户数据多、使用范围广和开放性较强等特点,从而 导致数据存在较高的安全风险。用户的数据通常是以分布式方式上传到云端,造成云端汇集了海量的数据,为 数据隔离形成了阻碍,需要新的方式应对用户数据的隔 离问题 [1]。除此之外,数据的通信安全已经成为新的安 全问题,也是其薄弱环节,这是由于数据的分布方式和 大数据组件之间容易存在未知漏洞而引起的安全边界逐 渐模糊,这些安全威胁基本上来自于大数据分析技术, 由于网络的普及,造成海量的数据在极短的时间内存入 云端,造成需要更高的技术保证数据安全。
1.2 新技术带来新需求
在网络时代, 人们对流量的使用,已经是大数据成 为每日生活的重要内容,人们更热衷于利用数据和占有 数据,从而获得更多更丰富的信息和资源,这使得数据 在不同界面中循环使用,形成共享开放的状态。一些虚 拟世界会通过电子设备映射到现实生活中,例如人们对 于传感器、智能终端和智能联网设备的使用频率和次数在不断增加。对于设备的操作很容易使用户的个人信息 受到泄露,同时也使数据安全本身受到威胁,同时数据 的多源收集和广泛使用对于数据的安全提出新的挑战, 人们很难从数据中分辨出来源和真实性,还有通过过度 收集个人信息的违法行为,对于这种违法行为要具有智 能告知技术和防御功能。
1.3 新应用场景的挑战
新的技术不断向不同行业渗透,传统的电信、金融 和互联网在新技术的催生下面临着新应用场景的挑战, 一部分热点行业已经将大数据等新技术发展到传统制造 业、物联网和融合业务中,带给用户新的体验和技术服 务。例如大量的数据应用场景已经走入人们的生活,工 业大数据使人们的生产方式发生了翻天覆地的变化,生 产方式可以完全不依附于劳动力,而是运用数据模拟控 制机械生产,智慧城市通过分析大数据,为人们的生活 提供便利,例如在等待公交车时可以观测到车辆的行驶 速度和状态,大量的数字化生活为数据安全提出了更高 的技术要求。数据共享会造成数据溯源的安全性受到威 胁,数据内容和数据标记容易在数据交换时发生可信性 丢失等数据安全事故,这些安全威胁很容易造成大量的 损失,成为不可忽视的数据安全问题。
2 机器学习技术对于数据安全的作用
2.1 扩大存储量
机器学习可以在很大程度上保证数据的安全性,通 过智能化的机器学习行为,可以将多样性且高度复杂的 大数据提供给机器学习内容,形成新的安全保障措施。 数据存储是大数据的重要内容和重要环节,存储不健全 会导致数据的泄露和篡改,造成数据安全事故,在受到 恶意攻击时,强大的机器学习可以应对攻击行为,形成 防火墙,保证数据的安全,机器学习可以通过在大数据 的海量数据中形成自己学习,通过不同的数据获得相应 的能力。Hadoop 可以解决数据日趋庞大的问题,可以 缩短响应时间,体现出数据处理的实时性,作为对于大 量数据实现分布式处理的软件,可以加强机器学习的范 围,通过对攻击行为的模拟可以建立出更强大的防御机 制,由于入侵次数较少很难形成理论范围较广的学习范 例,样本数量不多导致机器学习很难得到高效训练和防 御模拟,这就需要技术人员及时有效整合数据,建立机 器学习信息库,防止数据丢失。在数据存储中,机器学 习还可以通过对数据特征的监督,建立特征统计模型, 通过监测和分析测试样本,计算出异常值的变化程度, 对于异常数据,机器学习会提高综合分析能力,预防出 现安全问题,同时机器学习还可以不断提高检测的效率与灵活性,不断提高数据安全指数。
2.2 杜绝恶意软件影响数据
信息时代下的用户,已经以幂指数的增加方式将数 据应用范围不断扩大,我国的手机用户已经达到 9 亿 人,使大数据成为人们生活中不可或缺的一部分,人们 会通过软件处理数据信息,恶意软件很容易造成数据安 全的威胁,这时就需要运用机器学习来处理软件,将恶 意软件分析出来并提示用户,保障数据信息的安全可 靠。Hadoop 可以实现对海量数据的分布式处理,即 便是面对存储和计算元素失败,也可以通过建立和维护 数据副本实现失败节点的重新分布。对于机器学习的过 程中要加强过程的培训,提取样本使机器学习可以在正 常软件中辨识出恶意软件,建立起恶意软件特征的数据 库,同时建立起存储的模式和算法,确保对不同恶意软 件的区分与对比,增加机器学习的辨识度,机器学习可 以智能建立出自学模式,修补和修正数据信息,对于新 型恶意软件,机器学习可以通过预测和分析发现软件特 点,不断完善分析技术和处理技术,提高数据安全性 [2]。
3 基于大数据分析技术的机器学习相关研究
3.1 大数据分析技术与机器学习之间的关系
大数据分析技术与机器学习之间的关联为 :基于数 据的存储以及简单的统计,使机器学习应用于大数据分 析时,能够总结出数据背后潜藏的规律并以此构建分析 模型,最终依靠机器学习的相关算法促使模型运转,最 终获取与“规律”相关的决定性因素。
3.2 大数据分析技术在机器学习中的应用
现阶段的大数据市场开发模式主要有 4 种,具体架 构如下 :
(1) 数据采集→数据存储→数据清洗→数据分析→ Sqoop 导入→ 深度存储→ Web 显示。
(2)数据采集→数据存储→数据清洗→列式数据库 存储→ Thrift 协处理器处理→ Web 显示。
(3)数据采集→数据存储→数据清洗→数据分析→ Impala 实时数据分析→ JDBC 处理→ Web 显示。
(4) 数据采集→数据存储→ Spark 计算→深度存储→ Web 显示。
通过对以上 4 种类型的大数据分析架构模式进行比 对分析后可以发现 :(1) 4 种结构模式的前 2 个环节完 全一致。具体而言,数据采集机制为 FTP 和 Socket, 数据存储机制为 HDFS。(2) 前 3 种架构模式中的第 3 个环节均为“数据清洗”,具体的机制同样相同,均为 MapReduce。(3) 第 1 种架构模式与第 3 种架构模式 的第 4 个环节—数据分析的机制均为 Hive。(4)第1 种架构模式的第 6 个环节“深度存储”与第四种架构 模式的第 4 个环节“深度存储”机制完全相同,均基于 MySQL 和 Oracle 展开。(5)4 种架构模式的最后 1 个 环节均为 Web 显示。
一般情况下,基于大数据分析技术进行项目开发时, 无论选用上述哪一种架构模式,在整体开发完成后,均 需采用分布式任务调度系统(以 Azkaban 以及 Oozie 为主),以实现对架构进行周期运行计算。如果将机器 学习应用到大数据分析架构模式之中,则会生成一种新 的架构模式 :基于 Hive 的数据分析→机器学习→基于 Sqoop 的数据导入→基于 Hbase 的列式数据库存储→ 机器学习→ Thrift 协处理器处理。总体来看,在大数 据分析架构之中,机器学习一般处于上层阶段,即基于 大数据完成有关信息的计算等处理之后,向最终存储或 直接进行 Web 展示的过程中, 应当通过机器学习, 形 成一个具有决策和(或)预测功能的模型。
3.3 基于大数据分析技术的机器学习具体应用分析
机器学习是一种人工智能计算方法。从机器学习的 角度对大数据分析技术进行反向思考,得出的结论是 : 大数据分析技术主要用于训练各类参数、属于概率分布 模型的“输入”阶段。基于此,只有将合适的、经过筛 选的、不同程度上符合事物客观特征描述(具体的标准 需经由人工设定)的大数据才是标准的“好数据”。基 于此,在大数据时代,数据诚然是精贵程度最高的资 源,但也需要注意区分。若要达到认清数据本质的目 的,必须做好数据的处理工作。机器学习应用于大数据 分析架构时具有“提高数据特性输出”的特性,但核心 要素并不仅仅集中在算法方面,而是能否占有更多、更 好的数据,这是训练出更加出色模型的基础 [3]。
Hadoop 是 由 Apache 基金会开发 的一种分布式 系统基础架构,能够解决海量数据存储及分析计算方 面的问题。现阶段的 Hadoop 架构构成模式有两种。 (1)基于 MapReduce 的计算与资源调度→基于 HDFS 的数据存储 → 基于 Common 的辅助工具 ;(2)基于 MapReduce 的计算 → 基于 Yarn 的资源调度 → 基于 HDFS 的数据存储→基于 Common 的辅助工具。对上 述两种 Hadoop 架构组成方式进行对比分析后可以发 现,二者的数据存储及辅助工具完全相同。区别之处在 于,第一种架构中, Hadoop 中的 MapReduce 同时处理 业务逻辑运算和资源的调度,具有较大的耦合性 ;第二种 架构中, 增加的 Yarn 只负责资源调度, 而 MapReduce 只负责计算。
HDFS 是 Hadoop 架构中的一个分布式文件系统,具体构成如下 :(1)NameNode(nn), 主要用于存储 文件的文件名、文件目录结构等元数据,其中还包括文 件的生成时间、副本数量、文件权限在内的文件属性以 及每一个文件对应的块列表及其所在的 DataNode 等。 (2)DataNode(dn), 主要用于在本地文件 系统存 储文件块数据,同时可以对块数据的校验和进行存储。 (3)Secondary NameNode(2NN),主要功能为 :每 间隔一段时间, 便可以对 NameNode 内存储的元数据 进行备份。事实上, Hadoop 架构已经在很多软件中均 得到了有效运用。比如 3D Max、Office 系列办公软件 自带的监测系统会在用户刚刚完成一次文件进度存储之 后,立刻开启监测计时功能。如果间隔一段时间后用户 依然没有存储,那么系统会自动对文件当前的进度进行 存储,但存储路径与用户自行保存的路径并不相同,故 可被视为数据备份。比如某用户将 Office 软件下的某 个文件保存在某个非系统盘之中,那么用户在该软件之 中进行的一系列存储(即“默认存储”而非“另存为”) 操作,都会将文件进度保存在原始文件所在位置 ;系统 自行存储备份的文件则会保存在系统盘之中。总体而 言, Hadoop 架构本身功能强大,在开发功能系统时加 以应用,能够使系统的功能具有更大的便利性,更加符 合用户的需求。
4 结语
综上所述,新时代的新技术可以让每个领域都存在 大数据分析和数字化技术,海量数据的提取很容易造成 数据出现安全问题,为了避免数据安全受到威胁,要不 断加强机器学习,完善存储体系,扩大存储量,减少恶 意软件的入侵,维持网络数据的稳定运行。在具体运 用机器学习时,应当明确 :在大数据分析架构之中,机 器学习一般处于上层阶段。机器学习在其中发挥的作用 是,助力形成一个具有决策和(或)预测功能的模型。 明确此点,才能够理清大数据与机器学习之间的关系, 提高系统开发的效率和质量。
参考文献
[1] 李燕.基于大数据云计算网络环境的数据安全问题分析[J]. 无线互联科技,2021.18(15):19-20.
[2] 刘姿杉,程强,吕博.面向机器学习的隐私保护关键技术研究 综述[J].电信科学,2020.36(11):18-27.
[3] 李翔宇.基于IDC互联网流量结合大数据分析技术开展安全 能力关联深度学习研究[J].网络安全技术与应用,2020(7):76- 77.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/57901.html