SCI论文(www.lunwensci.com):
摘要:随着视频在现代信息传递中占据着越来越重要的地位,视频检索技术已成为当前的一个重要研究方向。为帮助研究人员更好地了解视频检索技术的发展概况,本文对视频检索技术的研究现状及应用作了综述,同时介绍了基于内容的视频检索技术与基于语义的视频检索技术,并就如何跨越视频底层特征与高层语义之间的语义鸿沟进行了展望。
关键词:视频内容;视频语义;底层特征;高层语义;视频检索
A Survey of Video Retrieval Technology
Yuan Lingli
(Jiangxi Vocational and Technical College of Industrial Engineering,Pingxiang Jiangxi,337000)
Abstract:As video occupies an increasingly important position in modern information transmission,video retrieval technology has become an important research direction.In order to help researchers better understand the development of video retrieval technology,this paper reviews the research status and applications of video retrieval technology,introduces content-based video retrieval technology and semantic-based video retrieval technology,and discusses how to cross the The semantic gap between video low-level features and high-level semantics is prospected.
Key words:video content;video semantics;low-level features;high-level semantics;video retrieval
一、引言
近年来,随着网络技术与多媒体技术的发展,人们可以通过网络获取各式各样的信息。信息传递的方式也逐渐趋于多元化,主要包括文本、图像、音频、视频等。文本可以帮助人们学习知识,了解时事;图像和音频相较于文本更加生动,能增强文本的可理解性,进一步丰富文本传递的信息;视频综合了文本、图像、音频三大信息传递方式,内容丰富,已成为人们接收信息和传递信息的一个重要途径。人们可以通过视频获取丰富的数据信息,但同时,如何从海量视频中快速、准确地查找到需要的信息内容也成为当前视频处理领域一个亟待解决的难题。
二、研究现状
随着视频的传播与发展,视频数据呈现爆炸式增长。传统的基于文本的视频检索技术,需要手动添加关键字及描述文本,因此存在以下问题:第一,人工成本大、效率低;第二,手工添加的文本带有标注人员的主观思想,对视频描述的客观性不足;第三,视频包含内容丰富,简单的几个关键字或几行文本难以准确描述视频内容[1]。基于以上原因,视频检索技术已难以适应当前的海量视频数据处理。为解决以上问题,国内外研究人员从视频内容和语义出发,研发了各种视频检索系统。例如,国外IBM公司研发的QBIC系统[2]。QBIC系统区别于一般的基于文本的图像检索,QBIC支持图形、图像的输入,能为基于内容的视频检索技术提供新思路。Carnegie Mellon大学的Informedia数字视频库,能根据视频中包含的文本、图像等信息生成索引,为基于内容的视频检索提供重要依据[3]。Columbia大学的VideoQ系统依托视频的时空与视觉特征实能现视频检索[4]。VisualSeek系统通过提取视频特征,可提供了多种检索方式[5]。国内对视频检索系统的研发也日益重视。例如,清华大学的TV-FI系统支持自定义方式检索视频[6];微软亚洲研究院的Ifind系统能进行视频语义特征检索[7];国防科技大学的New Video CAR系统在视频检索领域具有一定代表性[8]。
三、视频检索技术概述
(一)视频数据基本概念
视频数据以数字信号为特征,拥有庞大的数据量。虽然视频数据包含丰富的信息,但其本质是由连续的图像序列组成的,按照视频结构进行划分,可以大致分为视频、场景、镜头、图像帧[9]。其中,视频包含一个或多个场景,一个场景由一个或多个镜头组成,一个镜头中又包含多个图像帧。
(二)结构化处理技术
视频本身是非结构化的,这为视频数据的处理带来了巨大困难,因此,对视频进行结构化处理十分必要。就视频结构来说,视频的结构化处理技术主要包括镜头边界检测技术与关键帧提取技术。
1.镜头边界检测技术
一段视频包含一个或多个场景,而场景由一个或多个镜头组成。镜头边界检测有助于技术人员对视频进行处理,是视频检索及摘要的重要步骤。镜头的转换主要分为突变和渐变[10]。突变是指镜头转换突然变换方式,即相邻图像帧之间的切换无时间间隔。渐变是指镜头在后期人员的处理下由一个镜头缓慢进入另一镜头的切换方式,这种切换往往需要一定的时间,由几张或几十张图像帧完成整个渐变切换过程。相较突变转换来说,渐变镜头之间相邻的图像帧之间的变换较小,因此渐变镜头边界检测的难度更大。
镜头边界检测算法主要包括基于像素的算法、基于直方图的算法与基于融合特征的算法。
(1)基于像素的算法
基于像素的算法是一种最简单的镜头边界检测算法,主要通过计算图像帧之间对应像素点的灰度
差值来检测镜头边界[11]。其计算公式下。
其中,M代表图像帧的长度,N代表图像帧的宽度,fd(i,j)代表第d帧坐标,(i,j)代表灰度差。假设有一阈值T,当fd(i,j)>T时,则认为发生了镜头转换,否则认为是同一镜头。这种方法简单直观且易于实现,对于突变镜头有较好的检测效果,但是对于相邻帧变换较小的渐变镜头来说,误检率较高。
(2)基于直方图的算法
基于直方图的算法是基于像素的算法的延伸与拓展[12]。直方图是一种统计报告图,由条纹或线段组成,用以表示数据的分布情况,其计算公式如下。
其中,N代表图像帧像素总数,hm(i)-hn(i)代表图像帧在直方图i上的单位距离。直方图法忽略了图像帧中像素点之间的位置信息而直接计算图像帧之间灰度的差值,这种方法相对来说更加简单,但因为其对亮度变化的敏感度较高,所以对转换镜头之间灰度相似的相邻图像帧的检测难度较大。
(3)基于融合特征的算法
基于融合特征的算法主要是解决传统镜头分割算法特征单一、检测准确率低的问题。融合视频的多个特征,如感知哈希度量、空间差异度量、直方图差异度量等,能对镜头边界进行检测,相对单一特征的镜头边界检测算法,融合特征的算法具有更高的查全率与查准率。
2.关键帧提取技术
关键帧提取算法主要有基于镜头的算法、基于内容的算法、基于聚类的算法及基于互信息量的算法。
(1)基于镜头的算法
基于镜头的算法主要依据镜头边界检测结果选取不同镜头的起始帧、中间帧与结尾帧作为视频的关键帧。这种算法具有高效、简单的特点,但是,对于镜头内部变化较大的镜头来说不具有概括性。
(2)基于内容的算法
基于内容的算法主要是依据视频的底层特征,如颜色、纹理、形状等,结合镜头内部相邻帧之间的不同特征变化情况选取自定义阈值或自适应阈值,并在同一镜头中选取多张变化超出某一阈值T的图像帧作为关键帧。这种算法的实现原理较为简单,但是存在计算量大的问题,对内容变化较快的视频,易提取较多冗余关键帧。
(3)基于聚类的算法
基于聚类的算法是将相似的图像帧聚集起来,选取距离聚类中心最近的图像帧作为关键帧。这种算法可以在一定程度上降低关键帧的冗余度,但对时序性较强的视频,往往难以提取出适当的关键帧。同时,由于这种算法十分依赖聚类结果,因此需要准确的聚类个数,算法复杂度高。
(4)基于互信息量的算法
互信息量是一个随机变量中包含的关于另一个随机变量的信息量,基于互信息量的算法,可以有效计算不同图像帧之间的相似度。最后计算出来的互信息量与阈值T的比较可以对视频进行分类处理。这在一定程度上能降低关键帧的冗余度。
四、视频检索技术
(一)基于内容的视频检索技术
基于内容的视频检索技术主要依据视频的底层特征,通过视频结构化处理技术,如镜头边界检测、关键帧提取及特征提取等对视频内容进行分析,提取检索依据,并建立索引数据集。同时,该技术可根据用户的查询内容进行特征提取与数据索引,进而得到检索结果。
(二)基于语义的视频检索技术
基于语义的视频检索技术主要依据语义概念分类提取模型对视频的底层特征进行语义提取,并生成视频语义库,将视频的底层特征与语义内容映射出来,变换得到检索结果。语义即语言蕴含的意义,分为低层与高层两类,低层语义一般指内容呈现出来的显著特征,如颜色、纹理、形状等;高层语义则是指接近用户自身理解的对象信息。通过基于视频内容的分析技术提取的底层特征与用户理解的高层语义对象之间存在一定的差异,即语义鸿沟。如何跨越语义鸿沟是当前视频检索领域的研究热点与难点之一。
五、视频检索技术应用
(一)教学视频方面的应用
随着互联网的发展,线上教学悄然兴起,各类MOOC网站提供了各式各样的教学视频,这既加快了知识传播,又有利于学生的课后复习。但是,教学角度丰富多样,对同一教学内容往往存在理论性与实践性偏向不同的教学视频,则主要采取传统的基于关键词搜索的方式。视频检索技术可以综合教学视频的图像、文本、音频等特征进行智能化分析。智能化检索技术可以帮助用户快速查找自己需要的教学视频,提高用户的学习效率及教育资源的利用率。
(二)校园安防方面的应用
随着平安校园建设工作的进一步加强,校园安全保障工作得到了人们的密切关注。当下,监控摄像头已遍布校园的各个角落,传统的基于时间的检索方式需要巨大的人工成本,效率低下。而基于内容的视频检索技术可以根据视频的内容及上下文关系提供视频快速浏览服务,提高校园事件的查找效率,并对一些事故进行预警。
(三)广播电视监管方面的应用
随着媒体信息的快速发展,各种节目、广告广泛存在于人们的生活中,对广播电视的监管工作来说必不可少。视频检索技术可以提取广告样本特征并建立特征库,以对违规广告进行检测,同时提高对不同内容节目的比对效率,解决节目内容比对监测存在的问题。
六、结语
本文主要介绍视频检索技术的研究现状与应用。视频检索技术的智能化发展在近些年受到越来越多研究者的关注,对于如何高效提取视频的底层特征,以及如何将底层特征映射为高层语义,目前仍没有一个通用的视频检索系统框架,因此无法对不同类型的视频进行语义特征提取。视频检索技术下一步可以结合视频的多模态特征,融合机器学习算法对视频语义进行分析提取,建立更加完善的视频语义库,实现对视频内容更加全面、准确的表达。
【参考文献】
[1]支卫建.基于多特征融合的视频检索技术研究[D].北京:北方工业大学,2021.
[2]Carlton W.Niblack et al.QBIC project:querying images by content,using color,texture,and shape[C].San Jose,CA,United States,1993.
[3]Wactlar H,Kanade T,Smith M,el al.Intelligent access to digital video:Informedia project[J].Computer.1996(5).
[4]Chang S,Chen W,Meng H J,et al.VideoQ:an automated content based video search system using visual cues[C].1997.
[5]Smith JR,Chang SF,VisualSEEK:a fully automated content-based image query system[C].ACM International Conference on Multimedia Boston,USA,1997.
[6]蒋薇,尔桂花,戴琼海.基于内容的视频查询系统研究[J].中国图象图形学报,2003(11).
[7]Hongjiang Zhang,Wenyin Liu,Chunhui Hu.iFind—a system for semantics and feature based image retrieval over Internet[P].Multimedia,2000.
[8]SMEULDERS A W M,WORRING M,SANTINI S,et al.Content-based image retrieval at the end of the early[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2000(12).
[9]许经纬.基于深度学习的视频镜头检测与对象分割[D].上海:上海交通大学,2018.
[10]李强军,李启南.基于互信息量和自回归模型的镜头分割方法[J].计算机技术与发展,2019(01).
[11]张萌.视频检索中关键帧的提取和特征匹配的研究[D].北京:北京邮电大学,2012.
[12]Saad M H,Saleh H I,and Konbor H.Image retrieval based on integration between YCbCr color histogram and shape feature[C].Proceedings of the Computer Engineering Conference.IEEE,2012.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/43633.html