Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 理工论文 > 正文

基于 PCA-RF 算法的大数干扰信号识别论文

发布时间:2023-10-18 11:19:19 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)

  摘要:针对瓦斯传感器在信号采集与传输时易受到大数干扰的问题, 在实验模拟大数干扰的条件下, 提出基于 PCA-RF 算法的大 数干扰信号识别模型。对信号进行窗口化采样获得信号样本, 对瓦斯突出信号和大数干扰信号进行时域特征分析并提取 6 个时域 特征; 用主成分分析法 (PCA) 对原始数据降维, 选择累计贡献率最高的前 3 个主成分作为新的特征输入到随机森林 (RF) 算法 中, 以达到识别大数干扰信号的目的。结果表明: 经主成分分析法降维后的随机森林 (PCA-RF) 可以有效识别大数干扰信号, 与 单一的 RF 算法、 KNN 算法相比, PCA-RF 的准确度分别提高了 4.6% 、9. 1%, 与 BP 神经网络和 SVM 相比, 准确度分别提高了 18.2% 、4.6%, PCA-RF 的识别效果较好。
  Recognition of Large Number Interference Signals Based on PCA-RF Algorithm

  Chen Qiang, Lan Xixian, Liu Xiangjie

  (School of Electrical Engineering and Automation, Jiangxi University of Technology, Ganzhou, Jiangxi 341001. China)

  Abstract: In view of the problem that gas sensors are vulnerable to large number interference during signal acquisition and transmission, a large number interference signal recognition model based on PCA-RF algorithm is proposed under the condition of experimental simulation of large number interference. The signal samples are obtained by window sampling of the signals, the time-domain characteristics of gas outburst signals and large number interference signals are analyzed and six time-domain characteristics are extracted; the principal component analysis (PCA) is used to reduce the dimensions of the original data, the first three principal components with the highest cumulative contribution rate are selected as new features and input into the Random forest(RF) algorithm to achieve the purpose of identifying a large number of interference signals. The results show that by using the dimension reduced random forest (PCA-RF) based on principal component analysis, large number interference signals can be effectively recognized; compared with the single RF algorithm and KNN algorithm, the accuracy of PCA-RF is improved by 4.6% and 9. 1% respectively; compared with BP neural network and SVM, the accuracy is improved by 18.2% and 4.6% respectively, the recognition of PCA-RF is better.

  Key words: principal component analysis; random forest; large number interference signals; signal identification; intelligent detection

  0 引言

  矿下瓦斯传感器的数据采集传输容易受到电磁干扰 的影响从而导致数据失真, 产生“冒大数”现象[1]。当 受到大数干扰时, 有可能引发瓦斯报警系统的误报, 从 而造成经济损失甚至对工作人员造成安全威胁。电磁干 扰信号是一种低频信号, 频谱与瓦斯突出信号有重合, 矿井下的各种大功率机器容易产生电磁干扰, 针对这种 情况, 文献[2]在信号放大器之后加入一个低通滤波器并 取得了一定效果, 但信号仍会受环境因素的破坏和影响。 文献[3]提出了利用 BP 神经网络的方法对数据进行辨别, 但是神经网络需要大量的数据进行训练, 模型相对复 杂, 数据过少时效果并不理想。文献[4]提出了用 K均值 法对信号进行聚类来区分信号的方法, 然而该方法受聚 类中心的选取影响非常大, 聚类中心选择的差异会导致结果有较大出入, 不是一种稳定的方法。基于以上分类 方法的不足, 本文提出采用主成分分析和随机森林相结 合的方法对大数干扰信号进行辨识, 为解决此问题提供 新方向。

  随机森林 (Random Forest, RF) 是一种分类方法, 该 方 法 在 分 类 领 域 已 得 到 广 泛 应 用 。 主 成 分 分 析 法 (Principal Component Analysis, PCA) 可以对数据特征进 行降维, 降低数据的冗余性。对于 RF 算法来说, 特征的 维度会增加其计算负担并影响精度, 引入 PCA 算法是为 了对信号特征进行降维以减小 RF 算法的复杂度, 结果表 明, 该改进可以使 RF 达到更好的效果。

  1 实验流程

  本文实验流程包括数据采集、数据处理、特征选取、 PCA 降维、 RF 构建、信号识别及算法效果对比。首先,利用实验室设备采集数据样本; 其次, 分析选择合适的 样本特征, 并采用 PCA对样本特征进行降维处理; 再选 择合适的决策树规模构建出随机森林对信号进行识别检 测, 以得到分类的准确度, 并与常见分类算法效果进行 对比。用 PCA 对 RF 算法进行优化后的流程如图 1 所示。 其中, 设 RF (随机森林) 由 M 颗决策树组成, 具体的分 类结果由 M 颗决策树的结果汇总后投票决定。
\

  2 PCA-RF 模型

  RF 算法[6] 最早是 Breiman 和 Cutler 提出的, 这种基 于统计学习理论的工具是由多棵决策树组成的集成学习 分类器, 训练多个决策树, 并且其输出的类别是由每个 决策树输出类别的最多选项而定。 诸多研究[7- 10] 表明, 随机森林具有很高的分类精度, 能够很好地克服异常点, 避免决策树容易过拟合的缺点。 RF 算法步骤如下:

  ( 1) 设数据集 X 由 m 个样本组成, 每个样本有 n 维 特征; 用 Bootstrap 重采样的方法从数据集 X 中有放回地 随机抽取样本, 构成训练子集。

  ( 2) 从 n 个节点特征中随机抽取 k 个, 生成决策树, 决策树不需要进行剪枝处理。

  ( 3) 循环前两步, 可以生成任意数量的决策树, 组 成随机森林。

  ( 4) 用所有生成的决策树对待测样本进行分类, 每 个决策树都有一个决策类别, 将所有的决策结果组成决 策序列, 取该序列结果的众数。

  从随机森林的算法步骤不难发现, 决策树在决策前 对节点特征进行随机抽取, 难免会抽取到对结果影响较 小的特征, 从而影响分类精度。不仅如此, 特征过多本 身会导致决策树结构复杂, 需要训练更多的决策树, 因 此引入 PCA 算法对随机森林进行改进。

  PCA[11]算法的思路是通过坐标变换, 在遵循方差最 大的原则下, 将特征数据投影到新的坐标上, 从而把样 本多个维度的信息压缩到较低的维度, 在尽量保留原有 信息的同时, 选取更少的特征代替原有特征, 可以有效 降低数据的冗余, 最终目标是用较少的主要特征对样本进行分析。降维后的特征不是简单的在原有特征中减少 一些特征, 而是融合了原有特征的信息, 最终达到用较少特征就能包含原有数据大部分信息的目的。

  ( 1) 采集 m 个 n 维样本构成样本集 (x(1) , x(2) , …, x( m ) )。

  ( 2) 用下列公式对每个样本进行标准化处理, 以便 计算后得到的方向能够更好地表示原有数据。
\

  ( 3) 构建样本的相关系数矩阵 C, 如式 (2) 所示。
\

  ( 4) 分解得到矩阵 C 的特征值 λ 1 , λ 2 … , λ m 及特征向 量μ 1 , μ 2 ,… , μ m, μ 是特征值λ 相对应的特征向量。

  ( 5) 欲将原有的 n 维数据降维至p( p < n ) 维, 则选取 前p 个特征值对应的特征向量 μ 1 , μ 2 ,… , μ p, 将上述特征 向量标准化后, 组成特征向量矩阵 U。

  ( 6) 计算方差贡献率 ηi 及累计方差贡献率 ηΣ ( p), 计算公式如式 (3) 所示。
\

  累计方差贡献率可以衡量当前所选主成分对原样 本集的概括程度, 主成分个数的选取一般是累计贡献 率不低于 85%[13], 此时对应的前 p 个主成分对样本表 示较好。

  ( 7) 构造并选取主成分。将原有样本集中的所有 x(i), 通过式 (4) 变换成新的更低维的样本。
\

  3 实验步骤

  3.1 数据采集

  瓦斯突出信号和大数干扰信号均由实验室自制的装 置进行采集, 瓦斯浓度大小经由传感器转化为电信号并 传至计算机, 模拟的“大数”干扰信号由 TYB55-4-5 永 磁三相同步电击启动时产生, 实验室电机工作电压为 380 V, 工作电流为 3.0 A, 工作频率为 5 ~ 50 Hz。该电 机在启动时产生冲击启动电流。

  为模拟井下“大数”干扰信号的强度, 在该实验中, 使用互感的方式来达到这一目的。电机启动瞬间产生的 电磁脉冲会窜入传感器信号造成干扰, 以此来模拟煤矿 瓦斯检测系统中受到因电机启动而窜入“大数”干扰信 号的情况。

  信号由 Smacq 生产的 USB-2000 系列的数据采集卡通 过瓦斯浓度传感器进行采集, 实验室数据采集系统如图 2 所示。
\

  以 10 个采样点为一个信号样本, 每个采样点间隔1 s, 本文共采取了 90 个样本, 其中 68 个样本用于训练 模型, 其余 22 个样本为待识别的测试样本。

  3.2 数据特征分析

  瓦斯突出是指随着煤矿开采深度的增加、瓦斯含量 的增加, 在煤层中形成了在地应力作用下, 瓦斯释放的 引力作用下, 使软弱煤层突破抵抗线, 瞬间释放大量瓦 斯和煤而造成的一种地质灾害。矿下瓦斯浓度激增后, 排气系统打开, 随即瓦斯浓度降低, 而大数干扰信号是短时的脉冲信号, 图 3 所示为实验模拟的大数干扰信号和瓦斯突出信号图像, 前者是大数干扰信号, 后者是瓦斯突出信号, 使用其统计参数作为信号特征对不同的信号进行区分理论上是可行的[12- 14] 。
\

  设采样序列 X ( n ), n=1.2. …,N 为传感器与采集 卡采集的一个信号, 主要时域特征有期望、方差、均方 根值、峭度、偏度和峰值等[5]。峭度 K定义为
\

  峭度是归一化的四阶中心矩, 在时域信号中反映 为信号的瞬间变化强度, 峭度值对短时的剧烈变化较 敏感。

  偏度是用于衡量数据点分布偏斜方向和程度的指标, 主要反应了数据的对称特点, S>0. 样本表现为正偏, 反之则为负偏, 若 S=0. 则样本呈现正态分布, S 的绝对 值越大, 偏离的程度越大, 因此可以很好地衡量序列的 偏离特性。偏度 S 定义为
\

  综 上 所 述, 定 义 一 个 信 号 的 特 征 X= [X1. X2. X3.

  X4. X5. X6]分别对应样本均值、样本方差、样本均方根、 样本峰值、样本峭度、样本偏度。

  3.3 数据验证

  使用 MATLAB 软件, 对信号样本的特征按以下步骤 提取主成分。

  ( 1) 原始数据标准化。在主成分分析前需对原始数 据标准化处理, 标准化后的值等于原始值减平均值后再 除以标准差。

  ( 2) 采用标准化后的数据求解协方差矩阵 R。协方差矩阵表达了各特征之间的相关性, 又称相关系数矩阵。 结果如表 1 所示。
\

  ( 3) 分解该矩阵得到相应的特征值和特征向量, 通 过计算得到贡献率较大的主成分。如表 2 所示, 前 3 个主 成分的累计贡献率已经高达 0.997 6. 选取前 3 个主成分 作为新特征已经包含原始样本绝大多数的信息。
\

  ( 4) 选取前 3 个主成分, 其中原始特征和新的主成 分的关系由因子载荷矩阵表达, 本实验的因子载荷矩阵 及主成分与原始特征的关系如表 3 所示。
\

  由表 3 可得主成分的因子表达式:

  Y1=0.311X1+0.454X2+0.424X3+0.458X4+

  0.347X5+0.431X6

  Y2=-0.675X1+0.024X2-0.356X3+0.058X4+

  0.576X5+0.287X6

  Y3=-0.398X1+0.441X2+0.027X3-0.088X4-0.673X5+ 0.431X6

  选取表 4 中的 22 个样本作为测试样本, 用于检验模 型的效果, 选择贡献率最高的前 3 个主成分 Y1 、Y2 、Y3 作为大数干扰识别模型的输入参数, 信号的类别作为输 出参数。其中, 1 类为大数干扰信号, 2 类为瓦斯突出信 号, 建立基于 PCA-RF 的大数干扰信号识别模型, 随机 森林算法中的决策树的数量会影响分类准确度。误报率
\

  与决策树数量的关系如图 4所示, 发现决策树数量达到 9 时 PCA-RF 已经可以有效降低误报率, 而 RF 此时效果欠佳, 需要训练更多的决策树, 模型的训练时间复杂度高, PCA-RF 达到同样效果所需的训练时间更短。不仅如此, 未经 PCA 降 维的随机森林在节点特征抽取时往往会抽取到对识别结 果贡献小的特征, 影响模型分类效果, 而 PCA-RF 算法 可以简化特征, 只选取贡献率较大的特征。
\

  对 比本文算法的效果与 RF、SVM、BP 神经网络、 KNN 等算法的效果, 表 4 中列出了待测样本特征 (已标准 化处理) 和经 PCA 降维后的特征并给出算法的识别结果。 其中, SVM 算法采用 RBF 作为核函数, BP 神经网络采用 6 个输入节点, 4 个中间节点, 2 个输出节点的 3 层网络结 构, 以特征作为输入, 输出分类的二维向量, KNN 算法 取 K值为 5. 结果表明, 本文算法取得了较好效果, 虽然 SVM 也能处理小样本数据集, 但是 SVM 只适用于二分类 且超参数的选择, 对结果影响很大, KNN 算法则需要对 已有的所有样本都进行距离计算, 时间复杂度高, 且 K值的选取对实验结果的影响巨大。不同算法的识别准确度如 表 5 所示, 与 BP 法对比, 本文算法准确度提高了 18.2%。
\

  4 结束语

  针对矿下瓦斯传感器的数据采集传输容易受到电磁 干扰的影响从而导致数据失真, 产生“冒大数”现象这 一问题, 本文提出了将 RF (随机森林) 与 PCA (主成分 分析) 相结合, 从而对瓦斯大数干扰信号进行识别的 PCA-RF 模型。设计实验对模型进行验证, 结果表明该 模型效果较好; 采用 PCA 对样本集进行处理, 特征从 6 个降低为 3 个, 减少了特征的输入, 降低模型训练的时 间复杂度, 提高了 RF算法的准确度; 将干扰新信号识别 后, 有利于后续的数据处理与重构, 对瓦斯突出信号予 以保留, 对大数干扰信号则进行滤波处理。针对本文模 型, 在后续的研究中, 可以选取其他原始特征进行效果 比对或者尝试其他的降维方法进一步优化、简化模型。

  参考文献:

  [1] 廖志强, 陈东春, 刘水文 . 煤矿井下电磁干扰源及抗干扰技术 研究[J]. 工矿自动化,2012(7):4.
  [2] 张立萍 . 矿用瓦斯检测仪滤波器设计[J]. 水力采煤与管道运 输,2005(3):3.
  [3] 袁战伟, 张云生,王剑平,等 . 基于 BP 神经网络的煤矿瓦斯数据 辨识[J]. 云南大学学报(自然科学版),2009.31(S2):229-231.
  [4] 胡宇,周代勇 . 基于 K-means 算法识别瓦斯传感器软故障研究 [J]. 矿冶,2020.
  [5] 黄凯峰 . 煤矿安全监测监控系统瓦斯浓度异常信号辨识方法 研究[D]. 淮南:安徽理工大学,2016.
  [6] 方匡南, 吴见彬,朱建平,等 . 随机森林方法研究综述[J]. 统计与 信息论坛,2011.26(3):32-38.
  [7] 庄进发, 罗键, 彭彦卿,等 . 基于改进随机森林的故障诊断方法 研究[J]. 计算机集成制造系统,2009.15(4):9.
  [8] 刘勇,兴艳云 . 基于改进随机森林算法的文本分类研究与应用 [J]. 计算机系统应用,2019.28(5):220-225.
  [9] 郭颖婕, 刘晓燕, 郭茂祖,等 . 植物抗性基因识别中的随机森林 分类方法[J]. 计算机科学与探索,2012.6(1):67-77.
  [10] 张建,武东英,刘慧生 . 基于随机森林的流量分类方法[J]. 信息 工程大学学报,2012.13(5):5.
  [11] WOLD S,ESBENSEN K,GELADI P. Principal component analy⁃ sis[J]. Chemometrics and Intelligent Laboratory Systems, 1987. 2 (1/2/3): 37-52.
  [12] 宋寅虎,郜志英,周晓敏,等 . 基于 EMD-RF 的冷轧机振动信号 时频分析及识别[J]. 钢铁研究学报,2023.35(3): 303-312.
  [13] 王依宁,解大,王西田,等 . 基于 PCA-LSTM 模型的风电机网相 互作用预测[J]. 中国电机工程学报,2019.39(14):4070-4081.
  [14] 兰巍, 贾素玲, 宋世民,等 . 基于随机森林的航天器电信号多分 类识别方法[J]. 北京航空航天大学学报,2017.43(9):1773- 1778.
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/ligonglunwen/64986.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml