SCI论文(www.lunwensci.com):
摘 要: 以 YOLOv3 神经网络为基础,提出一种炼钢车间内包号识别方法。首先收集了现场包号的图像组成原始数据集, 之后对其进行筛选、标注、图像预处理等形成训练数据集。接着,借助 K-means 聚类运算得到网络训练所需的锚框尺寸,并 针对包号图像的特点调整了网络模型参数。最后,在训练数据集上训练网络得到识别模型。识别模型的输出经后处理,应用在 天车物流跟踪系统中。结果显示,该包号识别方法的准确率在 98% 以上。此外,在生产环境长期运行的实践表明,本识别方 法可满足天车物流跟踪系统对包号识别准确性、稳定性和实时性的要求。
关键词:深度学习 ;卷积神经网络 ;包号识别 ;YOLO
A Ladle Number Recognition Method Based on Convolutional Neural Network and Its Application
WU Jingwei
(WISDRI Engineering & Research Incorporation Limited, Wuhan Hubei 430223)
【Abstract】: A ladle number recognition method based on YOLOv3 neural network to identify ladles in steelmaking workshops is introduced. At the beginning, images of on-site ladles with numbers on the body are collected to form a raw image data set, then, a training data set is built by performing picking, labeling and pre- processing operations on the raw image data set. After that, with the help of K-means clustering algorithm, a number of anchor boxes needed for network training are obtained, meanwhile, several network parameters are fine-tuned to fit the characteristics of ladle number images. Lastly, created a recognition model by training the network on the prepared image data set. The outputs of the model are post-processed and then applied in the logistics tracking system. It is demonstrated that the precision of recognition results by this proposed ladle number recognition method goes up to 98%. Thus, the long-term recognition performance of the method in a production environment shows that the method meets the requirements of logistics tracking system on ladle number recognition for precision, stability and real-time capability.
【Key words】: deep learning;convolutional neural network;ladle number recognition;YOLO
0 前言
炼钢生产过程中,炼钢车间内的钢水盛置于钢包中通过车间内天车的吊运和地面过跨台车的运输,在各工序间流转。天车吊运和过跨车运输作业时,钢包等的位置和质量变化与各工艺环节中物料的接收和产出事件紧密关联。借助信息化技术开发物流跟踪系统,对作为钢水载体的钢包的实时位置和状态进行跟踪,从而准确掌握钢水的周转情况,并在此基础上实施生产调度作业的自动分析与优化,可有效降低生产消耗,节省人力资源,提高生产效率,是钢厂提升管理水平和智能制造水平的必要手段 [1]。
钢包的识别是实现钢包实时自动跟踪的关键。目前对于钢包识别和跟踪的解决方案主要有两种。一种方案是采用射频识别 (Radio Frequency Identification, RFID) 技术。典型的 RFID 系统由电子标签、标签读写 器,以及数据交换和管理系统等组成。电子标签安装在 需要识别的设备上 ;标签读写器的天线安装在固定的地 点。当设备移动进入读写器天线的工作区域时,电子标签将自身编码等信息通过内置天线发送给读写器,进而完成设备的识别与定位。由于钢包外表面温度高,会显著影响到在钢包上安装的电子标签的寿命,需要经常更换维护电子标签,人力使用和物料成本消耗都比较高。
另一种方案是通过对产线上天车和台车位置的跟踪,间接地跟踪钢包。在需要跟踪的天车和台车上安装称重装置、定位装置等,将称重、定位的数据汇总到物流跟踪系统中,利用对数据的分析计算间接推断钢包的位置。
这种方案需要操作人员在钢包流转的起点、终点、转运点等关键位置人工辨认和确认钢包的包号,并将包号信 息手工录入物流跟踪系统。在物流跟踪系统运行期间, 也需借助人工及时纠正计算的错误。随着计算机图像理论和计算机性能的迅猛发展,计 算机图像技术已在城市交通、智能监控、军事目标检测 等领域获得了大量的应用。在钢铁企业,计算机图像技 术也已获得了在转炉自动出钢、转炉下渣检测、钢带表 面质量检测等项目上的成功应用。对钢包跟踪来说,直 接辨识包号是钢包识别的理想手段。然而相比上述项目 相对单一的图像场景,由于钢包需要在整个炼钢车间内 部流转,车间内变化多样的光照条件大大增加了正确识 别出包号的难度。加之车间内粉尘的遮蔽、高温钢水的 高亮辐照,以及包号本身长期使用后的褪色、变色、缺 损等因素的不利影响,都对包号的正确和稳定辨识造成 了很大的困难。同时,物流跟踪系统也对包号识别的准 确性和实时性有较高的要求。如何克服车间内复杂恶劣 的环境影响,解决识别准确性和实时性的问题,是需要 解决的重点和难点。
传统图像技术实现物体识别需要人工选择物体特征, 针对性地设计算法来实现。此类方法识别准确率低,且 适用场景单一,不具备泛化能力。近年来,深度学习 凭借卷积神经网络在目标物体分类、检测跟踪、状态辨 识等功能上展现出的良好准确率和适应性,渐渐获得了 业界的青睐,催生出了一系列目标检测算法。2014 年, Girshick[2] 等使用候选区域 (Region Proposal) 算法 + 卷 积神经网络代替传统目标检测常用的滑动窗口 + 手工选 择特征的策略,设计了区域卷积神经网络 (R-CNN),大 幅提高了在 VOC 2012 数据集上进行目标预测的平均准 确率 (mAP)。其后的 2015 年,Joseph Redmon[3] 等基于回归的思想提出了 YOLO (You Only Look Once) 神经网络,采用单个前馈卷积神经网络来直接预测物体类别和具体位置。该网络检测速度可达到每秒 45 帧,基本 具备了视频流图像实时检测的能力。2016 年,Joseph Redmon 又相继开发出了 YOLOv2 和 YOLOv3 神经网络 [4],其中,YOLOv3 借助 Nvidia TitanX 显卡加速, 在 COCO 数据集上实现了 51ms 内 57.9% 的 AP50。与之对 比,同期的 RetinaNet 在相同的硬件条件下成绩为 198ms 内达到 57.5% 的 AP50。YOLOv3 在准确率相当的情况 下,速度上实现了约 3.8 倍的性能提升,表现十分优异。
本文选用 YOLOv3 作为核心,用于炼钢车间内的 包号识别。首先利用炼钢车间监控摄像头的视频流数 据,提取原始的含包号的钢包图像。接着对钢包图像进 行了数据预处理,制作了包号识别的数据集。之后,以YOLOv3 和深度学习框架 Darknet 为基础训练了包号 识别模型,并对识别模型的准确率和运行速度进行了评 估。最后,本文基于上述研究,设计和开发了包号图像 识别子系统与软件包。该子系统及软件包已成功地在某 厂炼钢车间投入使用,为炼钢天车物流跟踪系统实时提 供车间内关键位置的钢包包号信息。
1 YOLOv3 介绍
1.1 YOLOv3 神经网络原理
YOLOv3 的网络结构如图 1 所示,可分为特征提 取网络和目标检测网络两部分。为了提取目标图像的主 要特征,又能保留原图大部分信息,特征提取网络采 用了 Darknet-53。该网络主要由 52 个卷积核大小为 1×1 和 3×3 的卷积层组成,每个卷积层后面都接一个 批次的归一化层 (Batch Normalization, BN) 和一个 LeakyReLU 激活层。Darknet-53 网络借鉴了 Resnet 网络的残差模块结构 [5],以解决网络深度加深时所出 现的训练退化问题。网络最后输出 13×13、26×26 及 52×52 三种尺度的特征图,送入目标检测网络。
目标检测网络对三种尺度的特征回归,预测出多个候选框。在这里, YOLOv3 吸取了特征金字塔 [6](Feature Pyramid Networks, FPN) 的思想, 将不 同尺度 的特 征图进行融合后再做预测。小特征图提供深层次的语义 信息 ;大特征图则提供目标的位置信息。小特征图经过 上采样后与大特征图融合,因此该模型既可以检测大目 标,也可以检测小目标。
图像输入 YOLOv3 网络后,网络首先将其划分为 S×S 的网格,并针对三种不同尺度的输出特征图,S 分 别取 13,26,52。每个网格预测 3 个候选框,每个候 选框除目标类别外,还包含 5 个参量,分别为候选框的 中心位置坐标 (x,y)、尺寸 ( 宽 w,高 h) 以及目标物 体的置信度 confidence。置信度的计算公式如下 :
式中,Pr(object) 表示是否有目标物体落入预测候 选框对应的网格中。如果有,则 Pr(object) 取 1,否则 取 0。 定义为预测候选框与真实边界框 (Ground Truth Box) 的交集面积与并集面积之比 :
最后通过设置检测阈值,滤掉置信度低的预测候选 框,对保留的预测候选框进行非极大值抑制计算,得到 最终的检测结果。
1.2 锚框计算
YOLOv3 网络还引入 FasterR-CNN 中锚框 [7](Anchor Boxes) 的思想。锚框是一组宽高固定的初始候选框。 YOLOv3 针对图像采用 3 个尺度的特征 图进行预测, 分别对应三种不同尺寸的先验框,尺度最小的 13×13 特征图应用较大的锚框定位大的物体 ;中等尺度的 26×26 特征图应用中等的锚框定位中等的物体 ;尺度 最大的 52×52 特征图应用最小的锚框定位小的物体。 网络通过锚框预测边界框的形式,加入了一定的先验知 识,可以不用从无到有地训练学习目标的坐标,只需根 据锚框与标注框的偏移量进行回归计算即可。网络训练 前需要根据自己的数据集计算适当的锚框,并相应地修 改网络参数。对初始锚框的选择会直接影响网络对目标 物体识别的精度和速度。
YOLOv3 利用 K-means 聚类算法对数据集中目标 框的宽高进行聚类。其中 k 代表类簇个数,means 代 表类簇内数据对象的均值。不同于 K-means 算法中通 常使用欧氏距离、曼哈顿距离、切比雪夫距离等作为两 点间距离的量度,YOLOv3 采用平均交并比 (Avg IOU) 作为目标聚类分析的量度。
2 炼钢天车物流跟踪图像识别子系统的硬件架构
某钢厂炼钢天车物流跟踪的图像识别子系统由安装 于车间内各工艺处理工位和吊运位等关键位置的网络摄 像头、现场的千兆网络交换机,以及机房内的视频汇聚 交换机、视频服务交换机、图像分析服务器、管理计算 机等设备组成。整个系统的硬件架构如图 2 所示。
摄像头借助以太网连接至视频分析网。图像分析服 务器登录摄像头后,持续不断地从摄像头获取现场的高 清视频流进行分析计算,然后将计算结果通过网络发送 至天车物流跟踪系统服务器。
3 包号识别方法的实现
3.1 数据集制作
对深度学习神经网络训练而言,数据集是必备的基 础条件。目前,针对炼钢车间内包号的识别尚没有公开 的数据集可供使用,因此,本文收集和准备了一套包号 数据集。准备这套数据集主要进行了四个方面的工作 : 包号图像数据的收集、筛选、标注和预处理。
3.1.1 图像数据收集和筛选
本文的包号图像主要采集自某钢厂炼钢车间内不同 工艺跨设置的网络摄像头视频流,包含现场所有钢包包 身两侧的图像。图像分辨率与摄像头分辨率相同,均为 1536×864 pixel。同一钢包号的图像尽量选择来自现 场多个不同的摄像头和不同时段的视频流,以保证数据集的丰富性。此外,在图像数据采集期间,各个钢包在 车间内上线流转的周期各不相同,个别钢包的流转时间 明显长于其他钢包。因此,由摄像头采集到的各包号的 图像数量也有十分明显的多寡差异。为了平衡各钢包图 像数据的数量,避免神经网络对某几个特定包号过拟合 的情况出现,对于这几个钢包,有意对其图像数据进行了筛选,控制图像总体数量。
最终,共采集到钢包侧面图像数据 23596 张,平均 每种钢包号约 840 张。
3.1.2 图像数据标注和预处理
本文采用 LabelImg 工具对钢包图像进行标注。标 注的内容为钢包耳轴上的编号。耳轴上的包号即使在天 车吊运过程中,也不会有遮挡的情况发生。利用该标注 工具,人工仅需用鼠标框出耳轴上的钢包号,随之该工 具可自动生成对应的包含类别和位置信息的 .xml 配置 文件。
为了增强训练后神经网络的泛化能力,防止过拟 合,通过加入噪声、模糊、锐化等方法对采集和筛选后 的包号图像数据进行了预处理。随后,按比例将图像数 据划分为训练数据集和测试数据集两类。最后,在包号的样本数据集上运行 K-means 算法 进行锚框的计算,得到 9 组先验框维度中心,分别为 : (20,33),(19,47),(26,39),(27,53),(21,68), (38,55),(31,75),(47,76),(55,107)。
3.2 神经网络训练
YOLOv3 神经网络的训练环境为 Window 10 1909 版操作系统,CPU 为 Intel i7-7700, 内存 16GB。采用 Darknet 深度学习框架在准备好的数据集上进行训练。 为加快训练速度, 使用 Nvidia GeForce RTX-2070 GPU 和 CUDA 10.0 对计算进行并行加速。
此外, 将网络输入图像的尺寸参数 (width, height) 由 YOLOv3 默认的 416×416 pixel 提升为 512×512pixel, 以提高网络对包号的识别精度。网络训练初始化参数以 YOLOv3 默认的权重参数为主,对个别网络参数做了微 调,改进网络的识别效果达到最优。其中,初始学习率 (learning_rate) 为 0.01, 批量大小 (batch) 为 32, 动 量 (momentum) 为 0.9, 权重衰减 (decay) 为 0.0005, 翻转 (flip) 为 0,随机裁剪 (jitter) 为 0.1。
网络训练开始时的损失函数 loss 值很高 ;随着训 练迭代次数的增加,损失函数值迅速收敛,之后逐渐趋 于平稳 ;训练迭代至 40000 步后,loss 值在 0.15 附近 上下变化,基本达到稳定。此时停止计算,冻结这个阶 段的神经网络权重文件为包号识别模型。
3.3 识别结果分析
利用制作的测试集图像数据对训练完成的包号识别 模型进行量化的检验。本文使用 AP(Average Precision for each class) 与 mAP(mean Average Precision) 指标 来评估模型对包号的识别效果。AP 指的 是单个类别的 平均准确率 ;mAP 指的是多个类别平均准确率 AP 的算术平均值,是目标识别任务中衡量识别精度的常用指 标,衡量的是模型总体识别效果的好坏。mAP 的值越 大表示该模型的总体识别准确率越高。本文使用的 AP 默认为 AP50,即模型预测框与真实边界框的 IOU 在大于 50% 时的单类别平均准确率。准确率的计算公式如下 :
其中,TP 是正样本被正确识别为正样本的数量, 即包号被正确识别出的数量 ;FP 指负样本被识别为正 样本的数量,即识别出的包号是错误的数量。
此外,平均交并比 (Average IOU) 也是常用的评价 指标,评价的是模型检测的定位精度。
本文训练的 YOLOv3 网络,在测试数据集上运行 得到的 mAP 为 99.87%, 平均交并比为 83.89%, 准确 率非常高。在训练模型相同的硬件条件下运行模型测试 时,平均帧率为 45.2 帧 · s-1。
3.4 包号识别模型在天车物流跟踪系统中的应用
针对某钢厂天车物流跟踪系统的需求,本文还设计 开发了包号图像识别软件包。软件包的核心功能是连续 采集安装于炼钢车间内关键位置的摄像头的视频流并对 其进行处理,获取画面中钢包的包号信息。其后将是否 检测到包号,以及识别到的包号结果等信息发送至天车 物流跟踪系统。采用的包号识别核心模型为前文训练的 YOLOv3 神经网络模型。模型的识别效果如图 3 所示。
YOLOv3 神经网络模型直接应用在实际场景的识别 过程中,会不时出现漏检和误检的情况,其准确率只能 达到约 80% ~ 90%,远远没有达到在训练集上运行时 的准确率。究其原因,主要是因为无论训练集还是测试 集中的图像,都是经过人工遴选后包号显示比较清晰的 样本,然而现场环境多样,强烈的光影变化会使钢包耳 轴上的包号偶尔无法辨识,或难以辨认。而且在生产过 程中,钢包耳轴的包号也会逐渐出现褪色、掉色,加之 耳轴上包号的尺度在整个监控视频流画面上相对较小, 平均尺寸约为 25×25pixel,使模型的识别易出现漏检 和误检的情况。现场强烈光影环境对钢包号识别的不利 影响如图 4 所示 :
为此,软件包基于包号在识别过程中的不会改变这 一前提,增加了异常值的甄别和处理规则。对于最近若 干帧视频图像的神经网络识别结果,软件根据结果类别 的出现频次和结果置信度进行排序,筛选出频次和置信 度最高的识别结果作为取信的包号,而摒弃掉异常值, 从而大幅减少了模型漏检情况对包号识别的影响。包号 识别的准确率提高到了 98% 以上,满足了天车物流跟踪 系统对包号识别子系统准确性、稳定性和实时性的要求。
4 结语
本文基于 YOLOv3 神经网络,设计了一种炼钢车 间内包号识别的方法。详细阐述了包号数据集的制作、 神经网络的设置、训练与识别结果后处理的方法。并将 该识别方法应用于某钢厂炼钢车间天车物流跟踪系统的 包号识别。现场长期实践表明,该识别方法的准确率在 98% 以上,展现出了良好的对车间环境变化的鲁棒性。 在以后的工作中,将重点针对包号图像特点优化网络结 构,以降低对硬件条件的要求,获得更快的运行速度。
参考文献
[1] 黄帮福,田乃媛,李广双,等.钢包管理系统的设计与实现[J]. 冶金自动化,2011,35(1):40-44+68.
[2] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C].IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.
[3] Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:779-788.
[4] Redmon J,Farhadi A.YOLOv3:An Incremental Improvement[C].IEEE Conference on Computer Vision and Pattern Recognition,2018:89-95.
[5] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C].IEEE Conference on Computer Vision and Pattern Recognition,2015:770-778.
[6] Lin T.Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017:2117-2125.
[7] Ren S,He K,Girshick R,et al.Faster R-CNN:towards realtime object detection with region proposal networks[C]. International Conference on Neural Information Processing Systems,2015:91-99.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/35678.html