SCI论文(www.lunwensci.com)
摘 要: 当前针对羽毛球比赛视频的自动剪辑技术尚不完善,该文通过分析完整的羽毛球比赛视频,将其分为比赛片段、 回放片段与人物特写片段,并采用图像处理技术实现三类片段的完整剪辑。该文针对比赛片段提出了结构相似度判断法与霍夫 直线检验法, 针对回放片段采用了 SIFT 特征匹配法与轮廓检测法, 针对人物特写片段则采用了深度学习方法, 并对各种方法 的实验结果进行评价和分析,为羽毛球视频自动剪辑系统的实现提供了理论基础。
Research on Badminton Video Automatic Editing Technology
GONG Sitong, FAN Ke, LI Xinchen
(School of Electronic and Information Engineering, Beijing Jiaotong University, Beijing 100089)
【Abstract】:The current automatic clip technology for badminton match video is not perfect, this paper analyzes the complete badminton match video and divides it into match segments, playback segments and close-up segments, and uses image processing technology to achieve the complete clip of three types of clips. In this paper, we propose the structure similarity judgment method and hough line test in view of the game pieces, we adopt the SIFT feature matching method and contour detection for playback footage, we use the deep learning method for characterization fragment, and we also evaluate and analysis the experimental results of various methods, providing the implementation of badminton automatic video editing system with theoretical basis.
【Key words】:automatic clip;structural similarity;hough line test;SIFT feature matching;contour detection
0 引言
当前市场上对于羽毛球比赛视频的剪辑技术呈现出发 展不成熟、剪辑出的视频种类过于单一等问题。针对这 一现状,本文采用场景识别与图像处理等方法改良和创 新视频自动剪辑技术,从而快速高效地剪辑出比赛片段 以及更多样的片段类型。该项技术的研究既可以为相关 技术人员分析比赛提供便利,也可以为观众提供运动员 的特写片段,还可以作为对当前体育视频自动剪辑技术 的补充和完善,具有广阔的应用市场。
1 核心技术
1.1 比赛片段剪辑
比赛片段是羽毛球比赛视频中最核心的片段,其主 要特点为拍摄机位固定,梯形比赛区域在图像正中央。 因此,可以通过识别梯形比赛场地实现比赛片段的准确 剪辑,具体方法有图像结构相似度判断法以及霍夫直线检验法。
1.1.1 结构相似度判断法
结构相似性 SSIM 是通过对图像亮度、对比度及结构进行加权来衡量两幅图像相似度的指标。
设 亮 度 对 比 函 数 为 I(x, y) , 对 比 度 对 比 函 数 为 C(x, y) ,结构对比函数为S(x, y) ,则 SSIM 的一般方程公式如式(1)所示:
SSIM (x, y) = I(x, y)α C(x, y)βS(x, y)γ (1)
通常情况下, α, β,γ 三者均取 1.
在实际应用中,局部 SSIM 的效果要强于整体 SSIM,故可利用滑动窗口将图像分块,采用高斯加权 计算各窗口的 SSIM, 而后将所有窗口的 SSIM 取平均 得到平均结构相似度,其公式如式(2)所示:
由于比赛片段拍摄机位固定,图像间亮度变化较小,结构相似,故可采用 SSIM 来剪辑比赛片段,具体 方法如下:
(1)保存模板:事先存储一幅该视频中比赛片段的 图像,采用大津阈值法进行全局自适应阈值分割,得到 标准模板 M。
(2)平均相似度计算: 遍历视频中的每一帧图 像 Mi , 并对其进行二值化处理, 将图像分为大小为 11×11 图像块, 采用 σ = 1.5 的高斯加权函数计算各图 像块的均值及标准差,再进一步计算其与标准模板 M 的平均结构相似度MSSIM(M , Mi ) 。
(3)图像剪辑:若MSSIM(M , Mi ) > 0.8 ,则说明二 者相似度高, Mi 同样为含有梯形比赛场地的比赛片段, 否则跳过,继续遍历视频其他帧。
1.1.2 霍夫直线检验法
Hough 变换是一种通过将二值图像转换到参数空 间来检测和定位图像中直线的方法。
由于比赛片段中呈现出的比赛场地由若干直线围 成,因此可通过霍夫直线检验法提取图像中的直线,从 而判断该帧是否为比赛片段,其步骤如下:
(1) 尺度变换:遍历视频各帧, 将各帧图像变换为 850×480 大小,图像缩放后采用双线性插值方式重新 计算像素。
(2) Canny 算子边缘提取:Canny 边缘检测算子 是一种多级边缘检测算法,其通过非极大值抑制及双 阈值检测算法来寻找最优边缘,最终边缘提取结果如 图 1(a) 所示。
(3)霍夫直线变换:设定检测阈值为 π / 180 ,最小 直线长度为 10.最大直线间隔为 5.对图像进行霍夫直 线变换,则直线检测结果如图 1(b) 所示。
(4) 直线过滤:设定合理的阈值, 若检测到的直线 长度在该阈值范围内,则判定该帧属于比赛片段。
1.2 回放片段剪辑
在每局比赛结束后,都会出现该局比赛的回放片段 来帮助观众和裁判分析比赛内容。大多数回放片段的前 后都会出现与本次比赛有关的特定标志,通过识别该标志即可实现回放片段的剪辑。
1.2.1 SIFT 特征匹配
SIFT,即尺度不变—特征变换算法的实质为在不同 尺度空间中查找图像特征点并进行匹配。该算法不仅提 取特征能力强,对图像的旋转、尺度变化、光照变化和 噪声等也具备较高的稳定性 [1]。其基本步骤分为:DOG 尺度空间的构建、特征点提取、生成特征点描述子、进行 特征点的匹配、采用 RANSAC 算法消除错误匹配点 [2]。
SIFT 特征点匹配可用于回放标志检测中:
(1)将羽毛球比赛视频的各帧图像依次作为待配准 图像,回放标志作为参考图像;
(2)提取两幅图像的角点,进行特征点匹配;
(3)当二者的匹配点数目超过一定阈值时,则认为 该帧含有回放标志,相距较远的含有回放标志的两帧间 即为比赛回放片段。
具体的 SIFT 特征匹配效果如图 2 所示,两者间的 匹配点数量为 264.
1.2.2 轮廓检测法
上述通过特征点匹配进行标志检测的准确度较高, 对不同比赛视频的泛化性能较强,但当检测到的特征点 数目较多时,图像检测速度较慢。因此,可通过对含有 回放标志的图像进行轮廓提取,当参考图像与待检测图 像的轮廓相似度较高时,则判断待检测图像中含有回放 标志。
轮廓相似度检测步骤如下:
(1)采用最大方差法进行自适应阈值分割。
(2)图像开运算: 由于上一步中得到的二值图像包 含较多边界点以及无意义的前景点,会增加轮廓提取以 及模板匹配的计算量。因此,可先对图像进行 3×3 区 域内的腐蚀,去除小而无意义的前景像素点,再进行 3×3 区域的膨胀,使得标志区域形成连通域,便于后 续提取轮廓。
(3)轮廓提取:提取图像中各连通域的外侧轮廓并 保存。
(4)模板匹配:将待匹配图像中的轮廓分别与回放标志轮廓进行对比, 得到若干相似度{s1 , s2 , … , sn }, 选择其中的最大值作为两幅图像的最终匹配结果,如式(3)所示:
match = max{s1 , s2 , … , sn } (3)
若 match 大于一定阈值(此处取为 0.7),则待匹配 图像中含有回放标志。
1.3 人物特写片段剪辑
人物特写片段是指比赛过程中针对两位运动员以及 赛场工作人员的特写镜头,由于其拍摄机位不固定、场 景切换频繁、镜头移动速度较快等特点,自动剪辑难度 较大。本文采用深度学习方法进行人脸的检测和识别, 通过判断人脸大小及比例,将符合要求的特写场景提取 出来。
本文使用 Caffe 卷积神经网络框架作为模型进行训 练并对输入的视频流进行检测和分类。具体实现流程如 下:(1)利用初步构建的神经网络模型中的人脸检测功 能,对输入的视频流中的人脸图像进行截取;(2)为截 取的不同人脸图像赋予不同的标签,将其作为训练集来 训练模型,提升模型的分类性能;(3)输入视频流,用 训练好的模型对视频各帧进行人脸识别,若图像中的人 脸比例超过了预先设定的阈值,则将其作为人物特写片 段进行剪辑。
通过 DNN 方法对不同羽毛球运动员进行人脸识别 的算法召回率为 92.57%,其识别速度较快且可识别人 物侧脸。
1.4 软件程序设计整体流程
本文采用 Python 的 Tkinter 进行软件界面的编程, 程序整体设计流程为:
(1)图形界面设计:视频信息输入框以及视频的播 放、剪辑、暂停、倍速等功能按键;
(2) 视频遍历部分:将上述针对不同片段的剪辑算法 以子函数的形式与界面的视频遍历按键绑定, 程序将对输 入的视频流进行逐帧遍历, 而后根据上述算法来判断片段 类型,在界面下方为每种片段生成不同颜色的进度条;
(3)视频剪辑部分: 将 Moviepy 中的视频剪辑功 能与剪辑按键绑定,使得用户可以自由操作界面进行视 频剪辑 ;
(4) 视频播放部分:利用 OpenCV 与 Pygame,采 用双线程音频同步播放,进度条自动同步播放进度, 用 户可以通过点击倍速按键或拖动进度条来控制播放进度。
2 结果分析
2.1 算法评价指标定义
为定量分析不同算法的视频剪辑效果,定义算法评 价指标如下:(1)准确性: 召回率 = 自动截取的该片 段帧数 / 人工截取该片段总帧数;(2)实时性:剪辑处理 30min 比赛视频所需要时间,以及处理视频每一帧 所需要的时间;(3)泛化性:是否适用于所有羽毛球比 赛,当更换新的羽毛球比赛视频时,是否需要更改算法 条件及参数。
2.2 视频剪辑效果评价
对于比赛片段,两种方法的视频剪辑结果如表 1 所 示。可以看出,结构相似度方法的剪辑准确性较高,但 剪辑实时性较低,这是因为先计算图像各区域的 SSIM 再加权平均的方法运算量较大,耗时较长。
对于回放片段,两种方法的视频剪辑结果如表 2 所 示。分析表 2 可知,两种方法的准确性相差较小,由于 SIFT 特征匹配法需检测大量角点并提取特征,因此实 时性较低,而轮廓检测法由于需不断根据视频特点更换 相似度阈值,故该模型的泛化性能较低。
3 结语
本文从算法原理、算法流程及结果分析等方面介绍 了羽毛球视频自动剪辑系统中所使用的各项剪辑技术。 对于比赛片段,采用基于结构相似度的剪辑算法及霍夫 直线检验法,对于比赛回放片段,采用 SIFT 特征匹配 算法以及轮廓检测法,对于人物特写片段,则使用基于 深度学习的方法进行分类和剪辑。本文的研究内容为羽 毛球视频自动剪辑系统的实现提供了理论依据,极大推 动了图像处理技术在视频自动剪辑领域的应用和发展。
参考文献
[1] 谭光兴,张伦.基于改进SIFT的图像特征匹配算法[J].广西科 技大学学报,2022.33(02):41-47.
[2] 卢阳,孙恩情,邢延超.乒乓球比赛视频精彩回合剪辑研究[J]. 电脑知识与技术,2014.10(35):8527-8528.
[3] 祁曦 .基于改进SIFT和改进K-means的遥感图像配准算法 [D].上海:华东师范大学,2018.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/58996.html