SCI论文(www.lunwensci.com)
摘 要: 由于传统 IT 终端设备运行异常检测方法的检出率较低,导致设备运维难度加大,所以提出基于数据挖掘的 IT 终 端设备运行异常检测方法。利用无线传感器获取 IT 终端设备运行数据,采用多阶拉格朗日差值法清洗采集到的数据,并对数 据做降维处理。利用数据挖掘技术对设备运行数据进行关联分析,根据当前设备运行模式与规则库的相似度,判断 IT 终端设 备是否处于异常运行状态,实现 IT 终端设备运行异常检测。经实验证明,所设计方法的平均检出率为 98.76%,具有较高的检 测精度,在 IT 终端设备运行异常检测方面具有良好的应用前景。
关键词:数据挖掘,IT 终端设备,异常检测,检出率,多阶拉格朗日差值法
Research on Abnormal Operation Detection of IT Terminal Equipment Based on Data Mining
MAO Wenxin
(Shenzhen Power Supply Bureau Co.,Ltd., Shenzhen Guangdong 518000)
【Abstract】: Due to the low detection rate of the traditional IT terminal equipment operation abnormality detection method, which makes the equipment operation and maintenance more difficult, a data mining based IT terminal equipment operation abnormality detection method is proposed. The wireless sensor is used to obtain the operation data of IT terminal equipment, and the multi-level Lagrange difference method is used to clean the collected data, and the data is processed in dimension reduction. The data mining technology is used to perform association analysis on the equipment operation data. According to the similarity between the current equipment operation mode and the rule base, it isjudged whether the IT terminal equipment is in an abnormal operation state, and the IT terminal equipment operation abnormality detection is realized. The experimental results show that the average detection rate of the designed method is 98.76%, which has a high detection accuracy and has a good application prospect in the abnormal operation detection of IT terminal equipment.
【Key words】: data mining;IT terminal equipment;abnormality detection;detection rate;multi order Lagrange
0 引言
IT 终端是一个计算机系统,它可以提供数据处理 和网络服务访问等功能。随着 IT 技术的飞速发展,其 覆盖范围也十分广泛,已经成为人们生活中不可或缺 的一部分。但由于 IT 终端的特殊性,面临着信息安 全、网络安全等一系列问题, IT 终端设备运维出现困 难。IT 终端设备运行异常会产生非常严重的网络事故, 导致系统无法正常运行,影响 IT 用户的正常使用,因 此 IT 终端设备运行异常检测已经成了一个不可忽视的问题。IT 终端设备如果出现故障, 很有可能会造成终 端数据丢失,这对 IT 终端网络安全和 IT 用户的信息安 全将造成严重威胁。IT 数据的复杂性导致处理数据间 的关系变得十分困难,人工处理很难达到要求,因此对 于 IT 终端设备运行异常检测具有一定的难度。由于国 内对于 IT 终端设备运行异常检测研究起步比较晚, 现 有的技术和理论还不够成熟,传统检测方法存在一些不 足,在实际应用中经常出现错检、误检现象, IT 终端 设备运行异常检出率较低,已经无法满足实际需求,而数据挖掘技术的应用为 IT 终端设备运行异常检测提供 了强大助力, 为此提出基于数据挖掘的 IT 终端设备运 行异常检测方法。
1 IT 终端设备运行异常检测方法
1.1 IT 终端设备运行数据获取
在对设备运行异常检测之前,需要获取到设备运行 相关数据信息,考虑到 IT 终端设备运行异常时最直观 的表现是设备温度升高、设备电流和电压失稳,因此采 用温度传感器和电路传感器作为 IT 终端设备运行数据 采集装置。由于 IT 终端设备运行异常检测要求设备运 行数据不仅要速度快,还要精度高,如果获取设备运行 数据过程中具有较高的时延,会影响到后续设备运行异 常检测精度,因此此次选择型号为 HIFA-464F4S 温度 传感器以及型号为 IFYHA-4654FA4 电路传感器,将温 度传感器安装在 IT 终端设备主机左侧或者右侧,采用 串联的方式将电路传感器安装在 IT 终端设备电路总线 上,使用两种传感器实时获取到设备的温度、电流、电 压等运行数据信息 [1]。为了精准而有效地读取到设备运 行数据,为两个传感器配备一个型号为 HIFAF-A54F 读 卡器, 通过 USB 接口与传感器连接,传感器每完成一 次扫描周期,读卡器将自动读取到传感器扫描到的设备 运行数据,并将其上传到计算机中,用于后续数据分析。 1.2 数据清洗及降维考虑到一些干扰因素影响,无线传感器获取到的 IT 终端设备运行数据中会存在一部分脏数据,脏数据 包括缺失值、重复值、极大极小值、毛刺数据。缺失值 是指在数据列表中为空值或者 NA 的数据 ;极大极小值 是指在某一时刻 IT 终端设备数据过大或者过小 ;毛刺 数据是指相邻时段运行数据间突然增大或者减小。为了 保证数据质量,减小脏数据对设备运行异常检测精度影 响,对获取的数据进行清洗 [2]。首先将重复的数据、极 大极小值以及毛刺数据给予删除 ;其次考虑到数据的完 整性,采用多阶拉格朗日差值法对数据修补,其修补公式如式(1)所示 :
式(1)中, P 表示修补后的 IT 终端设备运行数据 ; m1 表示前推期数 ;m2 表示后推期数 ;pt-k 表示 IT 终端 设备运行数据缺失的时刻 [3]。由于受外部因素影响,设 备运行数据维度较高,在高维的情况下数据会表现出不 理想等问题,因此在上述基础上对数据进行降维处理。 假设原始数据由一组 m 个 n 维列向量组成,为了提高设 备运行数据属性分布的均匀性,在对数据降维前先对数 据做中心化处理,用公式表示如式(2)所示 :
式(2) 中 :w 表示中心化处理后的数据向量 ;xi 表示原始数据向量 ;xj 表示数据向量均值。将中心化处 理后的数据做正交变换,即可得到数据向量组的新坐标 W[4]。在此基础上,将原始数据向量 xi 周围区域的样本 进行线性表示,这一过程是对原始数据向量的重构,则 有如式(3)所示 :
x = hxi (3)
式(3) 中, x 表示重构后的原始数据向量 ;h 表示 重构系数,该重构系数是原始数据向量的线性表示,由 于原始数据向量 xi 周围区域的样本之间线性关系是稳定 的,因此原始数据向量 xi 的重构系数也是恒定不变的, 故将原始数据降维后,数学表示如式(4)所示 :
式(4) 中, y 表示降维后的 IT 终端设备运行数据 ; yi 表示原始数据向量 xi 的低维空间坐标 [5]。按照上述流 程对所有原始数据降维处理,为后续基于数据挖掘的设 备运行异常检测奠定基础。
1.3 基于数据挖掘的异常检测
采用数据挖掘技术对 IT 终端设备运行数据聚类分 析,通过聚类较为相似的运行数据区分 IT 终端设备异常运行状态, 采用数据挖掘技术对 IT 终端设备运行数 据聚类分析的依据是规则库,选取一部分 IT 终端设备 运行正常状态数据作为样本数据,建立 IT 终端设备运 行正常模式规则库,采用数据挖掘技术对规则库搜索, 假设规则库是由 M 个事物 K 构成,规则库中事物均为 频繁项集中的子集, 假设频繁项集为 I, 频繁项集由k 个项目组成,频繁项集的长度也为 k,定义关联规则形 式如式(5)所示 :
R : X ⇒ Y (5)
式(5) 中, X 表示关联规则的条件 ;Y 表示关联规 则的映射结果 ;R 表示关联规则 [6]。X、Y 均属于频繁项 集,利用上述关联规则挖掘出待测 IT 终端设备运行数 据的规则集,将其用 s1 表示。使用上述关联规则挖掘出 规则库中设备正常运行状态规则集,将其用 s2 表示,通 过规则库内同时存在关联规则X 和 Y 的事物数,计算出 两个规则集的支持度,如式(6)所示 :
(6) 中, E 表示规则集的支持度 ;|K| 表示规则 库中所有数据量 [7]。根据存在关联规则条件的事物数量 与同时存在关联规则条件和结果的事物数量比值,计算 出两种规则集的可信度,其用公式表示如式(7)所示 :
式(7) 中, U 表示规则集的可信度 ;(X) 表示存在 关联规则条件的事物数量。根据两个规则集的可信度 和支持度,计算出两个规则集的相似度,其计算公式如 式(8)所示 :
式(8) 中, ϖ 表示规则集 s1 与 s2 的相似度。在此 设计一个相似度阈值,如果公式(8)计算结果小于阈 值,则表示待测 IT 终端设备运行数据与规则库中正常 运行数据不相似,当前 IT 终端设备运行异常 ;如果公 式(8)计算结果大于阈值,则表示两个关联集非常相 似, IT 终端设备运行处于正常状态,根据阈值判断设 备运行状态,以此实现了 IT 终端设备运行异常检测。
2 实验论证
为了检验本次提出的 IT 终端设备运行异常检测思 路的可行性与可靠性,选取某 IT 终端设备为检测对象, 该 IT 终端设备型号为 IHYFA-4645.由于使用时间较 长,部分零部件已经出现明显的老化现象,经常出现运 行异常情况,利用此次设计方法与传统方法对该 IT 终 端设备运行异常进行检测。实验准备了 3 台温度传感 器和 3 台电路传感器,将无线传感器的扫描频率设定 为 0.26Hz, 扫描周期设定为 0.15s, 扫描方式设定为全 自动扫描,对 IT 终端设备扫描时间为 48h,共采集到 7000Byte 运行数据。按照上述流程对数据清洗、降维、 数据挖掘,共检测到 IT 终端设备运行异常 164 次,运 行异常时间总长为 16.25min。
实验以设备运行数据样本数量为变量,每完成数据 样本检测分析后,计算出两种方法检出率,检出率是检 测方法的重要评价指标,检出率越高表示检测方法检测 结果精度越高,其计算公式如式(9)所示 :
式(9) 中, z 表示 IT 终端设备异常检测方法检出 率 ;c 表示 IT 终端设备异常检测过程中正确检测次数 ; c1 表示 IT 终端设备异常检测过程中错误检测次数。此 次实验以检出率作为两种检测方法精度评标指标,利用 上述公式计算出两种方法检出率,并使用电子表格对数 据进行记录, 设计方法对于 IT 终端设备运行异常检测 的检出率均比较高,最高检出率为 99.99%,最低检出 率为 97.48%,平均检出率为 98.76%,可以将设备运 行异常检出率控制在 95% 以上,说明设计方法基本可 以将 IT 终端设备异常状态全部检出 ;而传统方法对于
IT 终端设备运行异常检测的检出率在 65% 以下,最高 检出率仅为 64.35%,平均出检率为 52.48%,远远低 于设计方法。这是由于此次采用数据挖掘技术对待测设 备运行数据进行深度挖掘,分析出当前设备运行数据与 正常运行数据的区别,通过对比二者之间的相似度,评 价设备运行状态。此外,本次设计方法还融入了数据预 处理技术,经过对数据清洗、降维,提高数据精度,在 一定程度上保证了设备运行异常检测结果的准确性。因 此实验结果证明了,在检测精度方面设计方法优于传统 方法,相比较传统方法更适用于 IT 终端设备运行异常 检测。
3 结语
此次针对传统方法在实际应用中表现的不足和弊 端,将数据挖掘技术应用到 IT 终端设备运行异常检测 中,提出了一个新的检测思路,通过实验论证了该思路 的可行性与可靠性,有效提高了 IT 终端设备运行异常 检测精度。此次研究能够丰富 IT 终端设备运行异常检 测理论,推进数据挖掘技术在设备运行异常检测方面的 广泛应用,提高设备运行异常检测工作信息化、智能化 水平,具有良好的现实意义。但是由于此次研究时间有 限,提出的方法尚未在实际中进行大量应用和操作,在 某些方面可能存在一些不足之处,今后仍会对该课题展 开深层次探究,为 IT 终端设备运行异常检测提供有力 的理论支撑。
参考文献
[1] 英友,胡刚义,唐静,等.基于两阶段聚类的设备状态异常检测 方法[J].舰船科学技术,2021.43(15):163-168.
[2] 赵明明,司红星,刘潮.基于数据挖掘与关联分析的工控设 备异常运行状态自动化检测方法分析[J].信息安全与通信保 密,2022(4):2-10.
[3] 吴悦,张忠会,游志刚,等.基于可视化和数据融合的光伏电站 电气设备异常运行状态检测方法[J].制造业自动化,2021.43(9): 16-19+55.
[4] 张聪,朱永生,杨敏燕,等.采用多变量耦合网络与变分图自编 码器的机械设备异常检测方法[J].西安交通大学学报,2021.55 (4):20-28.
[5] 王永平,张红民,彭闯,等.基于YOLO v3的高压开关设备异常 发热点目标检测方法[J].红外技术,2020.42(10):983-987.
[6] Minoru KONDO,陈阳译,徐爽校.车辆设备中用于实时检测 异常程度的快速计算方法[J].国外机车车辆工艺,2022(1):34-39. [7] 李海林,张丽萍.时间序列数据挖掘中的聚类研究综述[J].电 子科技大学学报,2022.51(3):416-424.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/61377.html