SCI论文(www.lunwensci.com)
摘 要:针对大规模人群聚集造成的拥挤和踩踏事件给城市公共安全带来的巨大损失,确定高密度人群区域进行安全预 警变得至关重要。使用高斯滤降低噪声, 输入到多列卷积神经网络 MCNN(Multi-column Convolutional Neural Network), 将图像映射为人群密度图,准确的估算人群数量,确定出高密度人群区域。在 Shanghaitech 数据集上实验, test_data_A 部 分 MSE 和 MAE 分别为 229.55 和 162.58.test_data_B 部分 MSE 和 MAE 分别为 43.68 和 25.61.
Safety Warning Based on MCNN Crowd Density Estimation
LEI Shanzhong, FENG Feiyang, WU Wenzhe, WANG Fangxin
(Xizang Minzu University, Xianyang Shaanxi 712082)
【Abstract】:In view of the huge loss of urban public safety caused by crowd and stampede caused by large- scale crowd gathering, it is crucial to determine the high-density crowd area for safety early warning. The Gaussian filter is used to reduce the noise, and the image is input into the Multi-column Convolutional Neural Network (MCNN), and the image is mapped into the crowd density map, the number of people is accurately estimated, and the high-density crowd area is determined. Experiments on the Shanghaitech dataset show that the MSE and MAE of the test_data_A part are 229.55 and 162.58. and the MSE and MAE of the test_data_B part are 43.68 and 25.61. respectively.
【Key words】:MCNN;crowd density map;gaussian filtering;density estimation;security warning
0 引言
近年来,大规模人群聚集造成的拥挤和踩踏事件给 城市公共安全带来了严重的危害。根据调查显示,类似 的安全事件在世界各地发生了很多,都造成了较大的损 害 [1]。究其本质是因当下的公共场所仍采用人工管理的 方式进行人流管控,人力成本高,从而导致人员配备不 充足,事件发现响应有一定的延迟性。在特定场景下, 人群数量超过预定值后,对人群密度较高的人群应进行 合理的疏散引导的安全预警提示,能有效避免安全事故 的发生。利用深度学习方法代替人工处理方式对视频图 像进行智能分析与决策 [2],可以有效地提高预警决策的 准确性和实时性,在安防预警领域应用前景广阔。视频 图像场景存在人群密度分布不均和尺度变化大等问题, 对人群密度估算的准确性形成制约。传统的 CNN 方法对图像直接进行人群数量估计,尺度变化较大的图像存 在准确率较低,误检和漏检率较高的问题 [3]。人群密度 图能反映影像中人群的分布及密集程度,是人群估算模 型中的主要参考对象 [4]。因此通过生成人群密度图的方 法来进行人数估计是当下主流方法 [4]。目前常用 CNN 的 方法来提取行人特征并生成密度图进行人群密度估算是 主要研究方向。Wang[5] 等人首次提出了一种端对端的 CNN 回归模型,该模型常用于人群密度较大的图像中 计算人群数量,实验的稳定性和准确性均有提高。但是 由于该方法对数据要求比较高,在算法模型的实验中都 需要场景的透视图,而透视图在应用中却很难获得 [6], 这就限制了方法的适用性。本文用 MCNN 允许输入图像 或视频具有不同分辨率和任意尺度,且能从图片的任意视 角来生成人群密度图并准确的估算人群数量。
1 数据集高斯滤波处理
由于人为采集的图像数据都基本上存在人群分布不 均,图像背景模糊和身体遮挡的现象,会导致生成的密度 图对人群密度估算产生影响。为了使图像更流畅,拟制 噪声更有效,更多保留训练和测试所需要影像的灰度分 布特征,降低图像像素间的相关性,图像预处理采用高 斯滤波器。具体流程是,通过二维高斯分布函数对图像 进行离散化并取样计算,得到高斯滤波器的模板,对模 板值进行归一化就能生成整数型的高斯滤波模板,所选 模板尺寸大小为 9×9.用该模板对图像范围内的像素点 的值进行加权平均值运算,然后将该值作为新得到图像 的像素值 [7]。通过调节参数 σ 在高斯函数中的值来平衡 图像噪声和像素的影响,是一种更优的邻域像素加权处 理滤波算法。二维高斯分布函数的公式如式(1)所示 :
2 基于 MCNN 模型的人群密度估算
2.1 模型构建
传统的 CNN 模型常用于尺度单一且变化很小的图 像进行检测,然而对于尺度变化大、密集人群遮挡的图 像, CNN 模型就存在误检和漏检率较高以及效果较差 的问题。因此,本文使用多列卷积神经网络(MCNN) 模型(如图 1 所示)来生成人群密度图,并通过密度图 估算人群总数来进行安全预警。
MCNN 网络结构的多列是包含三列卷积神经网络 [8], 分别使用 L 列、M 列和 S 列来表示大、中和小 3 种不 同尺度卷积核,通过不同尺度的卷积核,对图像中大小 不一的人头进行适配。然后将不同尺度大小的三列用全 连接的方法进行特征合并生成人群密度图,最后得出每 张密度图人群情况和人群总数。由图 1 可知每列网络结 构中都采用了两次池化(Pooling), 每次的大小都是2×2.所以最后得到的每张图片的分辨率都要降低 1/4. 所以在图像训练之前,每张预训练图片都需要进行 1/4 的降采样,再利用 1×1 的卷积来进行输出,得到原图 像 1/4 大小的人群密度图。
2.2 算法实现
MCNN 算法首先经过高斯滤波器进行图像预处理, 然后通过图 1 中的 MCNN 生成人群密度图,最后通过 人群密度图进行人群密度估算,具体算法流程如下 :
Step1 :图像根据公式 (1) 通过高斯滤波器进行预 处理 ;
Step2 :构建 MCNN 网络模型,使用 ReLU 函数作 为激活函数, MCNN 网络模型卷积核分为 9×9、7×7、 5×5 和 3×3 ;
Step3 :预处理后的图像逐个输入到 Step2 中搭建的 网络,进行模型参数训练,损失函数采用 MSE 和 MAE 来修正,模型的优化器使用反向传播和梯度下降来实现 ;
Step4 :重复 Step3 的操作,直到损失函数收敛 ; Step5 :使用训练好的模型进行测试。
3 实验与分析
数据集 Shanghaitech 分为两部分 :Part_A 和 Part_ B, 共标注 330165 人, 包含 1198 幅标注的图像。Part_A 部分是从网上下载的场景图片,具有 482 幅图片,训练 集和测试集分别为 300 幅和 182 幅 ;Part_B 部分是上 海街道闹市的实拍图片,具有 716 张图片,训练集和测 试集分别为 400 幅和 316 幅。
使用均方误差 MSE 和平均绝对误差 MAE 作为人 群密度估算的评估指标。MSE 和 MAE 的计算公式如 式(2)、式(3) 所示 :
公式(2) 和公式(3) 中的 ri 表示第 i 张图片的真实 人群数,表示第 i 张图片的模型预测人群数, N 表示
图片的总数量 。本次实验中获得的 Part_A 和 Part_B 的数据的最佳模型分别为 mcnn_shtechA_550.h5 和 mcnn_shtechB_110_.h5.将测试集分别用于两个模型 中进行测试,得到如图 2 所示的两组人群密度图。标签 密度图为数据集中实际标注的人头数据所生成的密度图。
从上述两组图像可以观察到, Part_A 部分的一组 图像人群密度更加密集,更容易发生异常, Part_B 部 分的一组图像人群密度较为稀疏,人群密度较小,不易 发生异常, 相对安全。test_data_A 部分的检测 MSE 和 MAE 分别是 229.55 和 162.58.test_data_B 部分的检测 MSE 和 MAE 分别是 43.68 和 25.61.相比传统的卷积神 经网络,该模型提升了在多目标尺度下的图像人群密度 估算的准确性。
人群数量反映了图像区域内人员的拥挤程度,这主 要也取决于人群的尺寸大小。通过对 MCNN 网络模型 生成的人群密度图估算人群总数,在数据集中特定场景 下的图像的人群数量达到某阈值时,容易出现拥挤或踩 踏等安全事故。在 Shanghaitech 数据集中 Part_A 和 Part_B 的人群估算结果中,需要进行安全预警的场景 数量分别为 65 和 8.
4 结论
在人群密度较高的区域提前进行预判能有效降低事 故发生率,确定高密度人群区域关键是对人群密度的准 确性进行估算。本文通过使用高斯滤波降低噪声,搭建 MCNN 网络模型, 在 Shanghaitech 数据集进行测试, test_data_A 部分的检测 MSE 和 MAE 分别是 229.55 和 162.58. test data B 部分的检测 MSE 和 MAE 分别是 43.68 和 25.61.最后利用人群密度图进行人群数量估算的安 全预警, MCNN 模型在视频监控领域具有较好的实用 价值和应用前景。
参考文献
[1] 卢振坤,刘胜,钟乐,等.人群计数研究综述[J].计算机工程与 应用,2022.58(11):33-46.
[2] 黄凯奇,陈晓棠,康运锋,等.智能视频监控技术综述[J].计算 机学报,2015.20(6):1093-1118.
[3] 张君军,石志广,李吉成.人数统计与人群密度估计技术研究 现状与趋势[J].计算机工程与科学,2018.40(2):282-291.
[4] 徐晓晨,葛艳,杜军威,等.融合双注意力机制的人群计数算法 [J].计算机系统应用,2023.32(1):241-248.
[5] WANG C,ZHANG H,YANG L,et al.Deep People Counting in Extremely Dense crowds[C]//Proceedings of the 23rd ACM International Conference on Multimedia,2015:1299- 1302.
[6] 彭贤,彭玉旭,汤强,等.基于单列多尺度卷积神经网络的人群 计数[J].计算机科学,2020.47(4):150-156.
[7] 闫冬,卢晓东.一种改进的高斯滤波方法[J].地理空间信息, 2018.16.105(5):10+123-124+132.
[8] ZHANG Y Y,ZHOU D,CHEN S Q,et al.Single-Image Crowd Counting via Multi-Col-umn Convolutional Neural Network[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,2016:589-59.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/57837.html