SCI论文(www.lunwensci.com)
摘 要 :为满足网络数据传输与存储的安全防护需求, 利用分布式数据库等软件技术, 建构起网络日志数据信息的安全 监测与管理系统,使用改进后的 K-means 聚类算法进行实时数据流的采集、清洗、筛选识别与预警操作,可以主动发现大数 据网络 DoS 拒绝服务攻击、DDOS 攻击、XSS 攻击等安全威胁问题,以便于管理人员对安全预警、故障网络节点的及时处理, 实现海量化网络数据传输与存储的安全防御。
Research on Network Data Security Monitoring and Management Based on Big Data Technology
WANG Na
(China United Network Communications Group Limited, Beijing 100033)
【Abstract】: In order to meet the security protection requirements of network data transmission and storage, a security monitoring and management system for network log data information is constructed by using software technologies such as distributed database. The improved K-means clustering algorithm is used to collect, clean, filter, identify and warn real-time data streams, which can actively discover security threats such as DoS denial of service attacks, DDOS attacks, XSS attacks, etc. on big data networks, to facilitate timely handling of security warnings and faulty network nodes by management personnel, and to achieve security defense for massive network data transmission and storage.
【Key words】:network data security;Hadoop;K-means clustering algorithm;safety monitoring
0 引言
随着大数据及云计算平台网络资源的不断增多,广 域网或局域网内数据信息传输与存储面临着较大的安全 隐患,外部用户或病毒攻击、网络安全事件呈现出高发 态势。基于此,通过围绕网络数据传输的安全日志,依 托于 MySQL 数据库、Web 服务器、存储器、Hadoop 分布式程序框架、MapReduce 编程模型、HDFS 数据 库等软硬件,开发出涵盖数据层、分析层、展示层的多 层网络安全防御管理系统,使用改进 K-means 聚类算 法、MapReduce 分布式并行运算程序,完成对传输与 存储网络安全日志的聚类分析、安全监测,通过安全日 志作出网络事故溯源、责任追究,以提升网络安全事件 监控效率、网络安全管理质量。
1 网络数据信息安全管理涉及的主要技术
1.1 MapReduce 分布式数据集处理
MapReduce 分布式主从框架的编程模型,通常被用 于网络大规模数据集的 Map( 映射 )、Reduce( 归约 ) 并 行计算,通过指定 Map 映射函数、Reduce 并发归约函 数,用于将一组键值对映射为一组新的键值对 [1]。在大 数据网络分布式数据集处理过程中,利用 MapReduce 编程模型,将网络节点的数据任务文件作出切片,以及 Map 类型切片信息读取、Shuffle 数据分区、数据排序 分组与合并等处理,由 NameNode 管理节点完成 Map 类型数据切片、数据分区与排序处理的任务执行。
1.2 HDFS 数据预处理与存储技术
HDFS 分布式文件系统负责不同数据分块文件的存储, 以 Hadoop HDFS 分布式组件为架构、 以 Block 为文件最小存储单元,对每个数据文件分块的安全日志 数据、ID 编码信息等进行读取。由客户端向 DataNode 网络节点发送数据读写请求后, NameNode 管理节点 会分配配置不同的数据块副本,检查被访问的数据分块 文件名、ID 编码号、位置信息是否存在,若不存在则 返回文件 I/O 异常信息,若存在且请求验证通过则返回 后台服务器数据文件。当所有网络数据文件完成读取、 请求验证后, 由 NameNode 管理节点将编号的分块数 据文件存放至文件查询映射队列, 并返回至客户端 [2]。
1.3 网络安全日志挖掘分析技术
Snort、Ossec 作为发生网络入侵攻击时产生的报 警日志, 通常以 ASCII 字符、Tcpdump 二进制代码的 数据格式展示,报警日志数据内包括网络攻击类别、通 信协议类型、网络端口号、攻击编号、目的 IP 地址、 报警日期 / 时间等。
借助于 HDFS 分布式文件系统、Flume 采集器、Map Reduce 函数库等组件,以及使用改进的 K-means 聚类算 法、关联规则挖掘技术,挖掘与提取受到网络攻击时的安 全日志数据, 包括 Snort 安全日志、Ossec 安全日志等数 据,确定日志数据的 K 个类簇 (k>n)并作出聚类与关联分 析,存储安全日志数据至 HDFS 分布式文件系统之中 [3]。
2 网络数据信息安全监控与管理系统架构设计
基于大数据 Hadoop 分布式系统架构,依托 Map Reduce 编程模型、HDFS 分布式文件系统、Flume 采 集器、MySQL 数据库、Web 服务器、存储器等软硬件, 建构起涵盖基础硬件层、数据层、分析层、展示层的多 层网络数据安全监控与管理系统,实时采集与挖掘分析 产生的安全报警日志信息,可实现网络环境安全威胁监 测与控制。基于 Flume 采集器、MySQL 数据库、Web 服务器、存储器等硬件支持下,由 Flume 采集器对不 同来源的网络安全日志作出采集, 利用 MapReduce 分 布式运算编程模型的 Map 函数库、Reduce 函数库,将 有关网络安全的日志数据文件切分为同等大小的数据片, 默认日志数据文件切片大小为 2MB,切片完成后的日志 数据文件存放至不同网络节点、加载至 HDFS 分布式文 件系统之中。最后, 使用改进 K - means 聚类算法对网 络安全日志进行聚类分析, 识别出 DoS 拒绝服务攻击、 DDOS 攻击、XSS 攻击、恶意扫描等安全威胁事件, 形 成责任追究证据链,来为网络安全威胁防护提供支持。
3 基于改进 K-means 聚类算法的网络数据安全检测与管理实现
面对 K-means 聚类算法在海量数据任务处理时效率较低的问题,提出基于轮廓系数法、密度聚类算法融 合的改进 K-means 聚类算法,进行网络安全日志数据 集的样本迭代。在 Hadoop 分布式计算基础服务架构 支持下,选择改进 K-means 聚类算法的 K 个数据点作 为初始聚类中心,设置被测网络安全日志样本集中存在 n 个数据点,依照就近划分原则将数据点分配至邻近类 簇,计算某一数据点、邻近聚类中心点之间的欧式距离如式 (1) 所示 :
若 某 一 NetSpy、Glacier、KeyboardGhost 等 攻 击病毒的安全日志数据集中包含 100 个以上样本点,使 用改进 K-means 聚类算法、残差平方和函数,计算得 出在 K=0-10 期间内被测数据点的 SSE 值呈现指数型下 降, 而后保持平缓下降, 表明当聚类数 K=10 时被测安 全日志数据集的聚合度回报最大,也即达到在聚类中心 的最佳聚类。假设被测网络安全日志数据集中包含 m 个 数据点,定义某一数据点到数据集其他点距离的总和为 Ai,则得到被测数据集中所有数据点距离的总和的均值 可表示为如式 (3) 所示 :
利用改进 K-means 聚类算法,对被测网络安全日 志数据的采集、挖掘分析执行流程如下 :
(1)基于以上计算公式 (1)、公式 (2)、公式 (3), 查找网络安全日志数据集内符合Ai > minAi + A(__)的数据点,其中minAi 表示某一数据点到数据集其他点距离之和的最小值。若某一被测数据点满足Ai > minAi + A(__),表明被测数据点、数据集聚类中心间的偏离较大,从数据集 中剔除该孤立数据点,生成包含 q 个数据点的新的数据 集合 P。
(2)假设数据集合P 中存在K个聚类且满足K =根号q, 那 么从新的数据集合 P 内寻找聚类中心点X1.且满足点 X1 与被测数据点之间的距离最小,作为新的聚类中心。
随后再根据Ai > minAi + A(__)的判别原则,寻找与聚类中心点X1 距离最远的数据点X2.作为新的聚类中心,如此 重复直至完成对数据集合 P 的 K 个聚类中心迭代训练。
(3)当数据集簇内的数据点量达到K/q个情况下,表 明该数据簇内分配的数据点饱和、其他数据点需分配至 与其距离次近的其他聚类中心点簇之中,直至所有数据 点分配完毕后停止。
(4)计算数据集群内多个饱和类簇的聚类平均值, 计算上一轮和新一轮数据迭代 的 SSE 指标值 SSEO、 SSEN,计算公式如式(4)所示 :
其中 Si、Sj 分别表示第 i、j 个数据点与聚类中心的 标准误差。若 SSEN < SSEO 则重复以上改进 K-means 聚类算法的迭代操作,直到 SSEO
4 仿真实验及结果分析
选用 NSL-KDD 公开数据集的实验数据,针对单位 时间内产生的拒绝服务攻击 (DoS)、未经授权访问用户 (U2R)、入侵者未授权访问 (R2L) 等安全日志数据,进 行入侵网络攻击安全检测,其检测结果如表 1 所示。
依据改进 K-means 聚类算法,得到被测网络安全 日志数据集测试集中各样本点、聚类中心的欧氏距离 后,选取出p 个与聚类中心距离最小的数据点,进行网络入侵攻击类别、攻击数目的判断,实现正常网络连接 数据点、入侵攻击数据点的聚类划分。从表 1 的入侵网 络攻击安全检测结果来看,基于改进 K-means 聚类算 法的网络攻击安全检测准确率高 ( 达 90% 以上 ),可满 足大数据环境下的安全防护需求。
5结语
大数据网络空间环境下的外部非法入侵、病毒或木 马攻击等安全事件层出不穷,如何针对大量的网络应用 程序、数据信息资源作出安全监测与防御,成为网络数 据安全防御系统建构的重要方向。大数据网络环境下围 绕拒绝服务攻击、用户访问攻击、Hadoop 分布式程序、 改进 K-means 聚类算法进行网络安全日志挖掘与监测 分析,包括 Snort 报警、Ossec 报警、防火墙报警等日 志数据挖掘与提取分析,可提升网络安全监控与管理效 率、管理质量。
[1] 张洁.网络安全分析中的大数据技术应用分析[J].电脑知识 与技术,2022.18(11):20-21.
[2] 徐航,张冬冬.大数据技术在网络安全分析中的应用[J].数字 技术与应用,2022.40(1):240-242.
[3] 滕雅玲.大数据技术在网络安全分析中的应用[J].电子元器 件与信息技术,2022.6(1):249-250.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/67873.html