SCI论文(www.lunwensci.com):
摘要:随着神经网络的迅速发展,语音翻译研究开始了端到端方向的尝试。而训练一个性能良好的语音翻译模型往往需要一定规模和质量的语音语料库,在俄汉语音翻译领域也是如此。由于语音翻译研究起步较晚,经常面临着缺乏可公开获取的高质量的语音语料库问题,因此自主构建语音语料库以满足神经网络的训练需求显得十分重要。本文在综合衡量了构建语音语料库成本和质量的基础上,通过在公开可获取的字幕网站中人工挑选了70小时的俄汉影视作品,经过制定规范、加工处理和人工评价三个环节,最终成功构建了小规模的俄汉语音语料库,证明了此种方法的可行性,为端到端语音翻译研究提供了数据基础。
关键词:语料库;语音翻译;影视作品
Constructing a Russian-Chinese Speech Translation Corpus Based on Film and
Television Works
XING Mengyang,MA Yanzhou,YANG Zheng
(Strategic Support Force Information Engineering University Luoyang Campus,Luoyang Henan 471003)
【Abstract】:With the rapid development of neural network,the research of speech translation has begun an end-to-end attempt.Training a good speech translation model often requires a certain size and quality of speech translation corpus,and is also true in thefield of Russian Chinese speech translation.Due to the late start of speech translation research,it is often faced with the problem of lack of publicly available high-quality speech translation corpus.Therefore,it is very important to independently construct speech translation corpus to meet the training needs of neural network.Based on the comprehensive measurement of the cost and quality of constructing the speech translation corpus,this paper manually selects 70 hours of Russian and Chinesefilm and television works from the publicly available subtitle website,andfinally successfully constructs a small-scale Russian and Chinese speech translation corpus through three links:Formulation of norms,processing and manual evaluation,which proves the feasibility of this method,it provides a data base for the research of end-to-end speech translation.
【Key words】:corpus;speech translation;film and television works
0引言
语言学名词审定委员会在《语言学名词》中,将语料库定义为:“为语言研究和应用而收集的,在计算机中存储的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体[1]。”近些年来,随着神经网络的迅速发展,语音语料库的构建研究引起了国内外学者的广泛关注。早期的语音翻译研究通过级联的方式实现,由两部分组成[2,3]:产生源语言文本的语音识别(Automatic Speech Recognition,ASR)系统和产生翻译文本的机器翻译(Machine Translation,MT)系统,逐渐发展为现在的通过端到端的方式实现。以往分别用于训练语音识别模型和机器翻译模型的语料库并不适用于端到端语音翻译模型,因此该领域面临着数据稀缺的问题,俄汉语音翻译方面也是如此。例如:2021年,R Cattoni等构建的语料库MuST-C是目前最大的公开可用的多语言语音语料库,涵盖了从英语到俄语等八种语言方向,但是无一例外都是以英语为核心进行翻译;俄语开放语音数据集(OpenSTT)是目前已知最大的俄语多域数据库,这些领域包括广播、公共演讲、书籍、优酷、电话、地址和讲座,总共有大约20000小时的转录音频数据。但该语料库是俄语语音转录语料库,适用于语音识别,无法直接应用于端到端语音翻译研究。因此,在这种情况下,构建一定规模和质量的俄汉语音语料库,为俄汉语音翻译研究提供数据基础,解决语音语料库资源稀缺问题,显得十分重要。
1基于影视作品的俄汉语音语料库构建
1.1语音语料库构建流程
为了方便高效的构建俄汉语音语料库,并且保证其质量,我们通过学习冯鸾鸾等[4]构建语料库的方法,并结合自身工作的实际情况,制定了如图1所示的构建流程:
在获取数据时,我们在国内公开可获取的字幕网站上通过人工选择的方式,获取了70小时高质量的俄汉影视作品,这是俄汉语音语料库构建中最为重要的一个环节。
1.2语音语料库相关规范
语音语料库的构建是一个费时费力的过程。为了快速有序的建设俄汉语音语料库,并保证语料库的质量,我们制定了相应的规范。
1.2.1主题和演讲者多样性
影视作品涵盖了大量的文化和生活主题,其演讲者也是由不同性别、年龄和出身的人组成。主题和说话人之间的多样性能够包含更多的语音关键特征和更加丰富的语言事实,进而保证训练语音翻译模型具有良好的鲁棒性和泛化能力,提高翻译效果。因此,我们在选取影视作品时要尽可能的保证生语料的多样性。
1.2.2样本的选择和质量
基于影视作品构建俄汉语音语料库首先要寻找内容符合多样性规范的影视作品。俄语影视作品中的字幕一般分为只包含俄语字幕、只包含汉语字幕和俄汉双字幕三种。第一种情形,虽然我们可以将获得的俄语字幕进行机器翻译或者人工翻译得到汉语译文。但是通过机器翻译的质量往往较差,人工翻译质量好,却费时费力。因此我们选择直接从网站上爬取包含有汉语字幕的俄语影视作品,这种作品字幕往往是由专业人员翻译而成的,具有获取方便,质量高的特点,能够满足构建高质量俄汉语音语料库的需求。同时,音频和字幕在作品中具有天然的直接对齐的特点,简化了后续处理的过程。
1.2.3存储规范
存储的方式对语音语料库后续的应用和管理都十分重要。为了提高通用性和便利性,我们在存储格式上选择了常见的mp3格式存放俄语语音文件,采用文本文档(txt)格式存在对应的汉语译文。并将一个完整的影视作品作为最小存储单元,这种做法虽然导致了在训练翻译模型时需要对语音和译文数据进行再次分割,以满足训练模型时对数据不同粒度大小的要求。但是考虑到不同语音实验需要的数据粒度不同,同时为保证良好的数据结构、上下文的连贯性和检索的速度,我们选择了以单个影视作品作为最小存储单元来存放语音和文本内容。
1.3俄汉影视作品语料的获取
语料的获取是构建俄汉语音语料库的重要环节。在充分考虑了影视作品内容多样性的前提下,我们经过人工筛选,选取了国内字幕网站约70小时的俄语影视作品,其大多为以俄语为母语者的讲话内容,具有发音清晰和规范的特点,保证了生语料的质量。筛选后,我们通过Python编程的方式,从相应的网站上分别获取了视频文件和音频文件,相应的格式为:video.m4s和audio.m4s。m4s是一种存储MP4视频片段的文件格式,在字幕网站中比较常见。
1.4语料的加工和处理
语料的加工和处理分为两部分内容:(1)对音频文件的处理,(2)对视频文件的处理。
1.4.1音频文件处理
获得的文件audio.m4s为俄语影视作品中的俄语音频文件。首先对音频文件进行格式转换,将m4s格式转换为mp3格式。然后为了降低影视作品中伴奏对人声采集的干扰,我们采用LALAL.AI工具对影视作品中的音频文件进行去噪处理,提高语音信号的信噪比。如图2所示展示的是一段俄语影视作品中歌唱家的音频材料,伴奏十分复杂,具有典型的代表性。从效果可以看出,经过处理后的人声和伴奏分离效果明显。
1.4.2视频文件处理
获得的文件video.m4s为俄语影视作品中的视频文件,它包含了语料库译文中所需的字幕信息,因此需要将字幕准确规范的提取出来。常见的字幕类型有外挂字幕、软字幕和硬字幕三种,虽然外挂字幕和软字幕获取方便,译文准确,但并不是所有影视作品都含有外挂字幕和软字幕。因此我们统一规范的将所有字幕类型作为硬字幕类型进行提取。常用的方法有利用软件,例如:esrXP,和自主编程的方式进行提取。为了便于对字幕其他信息进行加工处理,我们选用了编程的方式,调用了百度文字识别应用程序接口(API)进行字幕提取。根据字幕出现的先后顺序进行时间标记和分行,再将同一个视频文件的字幕存储为一个单独的文本文档。此时生成的文本文档包含了一些冗余信息,比如字幕的作者,视频网站等,因此需要对数据进行清洗,清洗后的数据只保留了汉语文本。为保证译文质量,我们利用流畅度测评的方式对译文进行了打分,将评分保存在时间信息之后,便于使用数据时按照质量要求对数据进行取舍。
2人工评价和检测
由于构建的语音语料库规模较小,我们直接采用了普检的方式对其质量进行了检查。主要检查的内容有语音和译文质量、两者是否对应、时间标注和流畅度检测等方面。发现除部分字幕冗余信息没有清洗干净和一些影视作品语音片段伴奏过于嘈杂无法使用外,其余检测结果良好。针对这两种情况,我们对有问题的部分进行了取舍、重复加工和标注,将伴奏嘈杂的语音片段流畅度标记降低(流畅度是译文的评分,但这里用来表示语音片段质量差),以便后续分类使用。经过检测和重复加工后,俄汉语音语料库构建完成,可以应用于端到端语音翻译的研究。
3结语
本文利用俄语影视作品构建俄汉语音语料库是一次大胆的尝试,它将公开的便于获取的影视作品变成了高质量的语音语料库,能够应用于端到端语音翻译研究,为其提供数据基础。相比于通过人工方式录制的语音语料库,该方法在保证质量的情况下,节约了成本、提高了效率。选择以单个完整视频文件作为存储单元,既保证了语音上下文的连贯性和检索的便利性,又有利于对语料库的二次分割和扩增。但是整个过程中还有很多不足之处亟待解决:一方面加工语料素材的过程还十分繁琐,有待进一步精简优化;另一方面,70小时的语音语料库对满足语音翻译研究的需求还相差较远,需要不断的扩充和完善,这将是我们下一步研究的重点。
参考文献
[1]语言学名词审定委员会.语言学名词[M].北京:商务印书馆,2011.
[2]WAIBEL A,FUGEN C.Spoken Language Translation[J].Ieee Signal Processing Magazine,2008,25(3):70-79.
[3]NEY H.Speech Translation:Coupling of Recognition and Translation[C]//1999 IEEE International Conference on Acoustics,Speech,and Signal Processing.Proceedings,1999:517-520.
[4]冯鸾鸾,李军辉,李培峰,等.面向国防科技领域的技术和术语语料库构建方法[J].中文信息学报,2020,34(8):41-50.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/41093.html