SCI论文(www.lunwensci.com):
摘要:近年来,现代信息技术进入高速发展的阶段,新的研究成果出现的同时也带来了新的难题和挑战,其中,对人工智能的研究应用到了人们生活和生产的各个方面,给社会生活带来了巨大的改变。在人工智能识别中的语音识别研究一直是重点研究项目,虽然基于人工神经网络引入声学理论的研究,让语音识别智能化的效率和准确率大大提高,但是随着对语音识别需求的增多,仍然出现了一些不足。因此需要基于大数据和深度学习,对语音识别进行改善和深入研究,本文通过探讨语言智能识别的现状,用基于大数据和深度学习的方法,改善语音识别中的语音提取,声音模拟和识别判断等,有效提高语音识别技术的发展。
关键词:大数据;深度学习;语音识别
Research on Speech Recognition Based on Big Data and Deep Learning
WENWU Zhenghong,PAN Su,ZHANG Kun
(Nanjing University of Posts and Telecommunications,Nanjing Jiangsu 210009)
【Abstract】:In recent years,modern information technology has entered a stage of rapid development.The emergence of new research results also brings new problems and challenges.Among them,the research on artificial intelligence has been applied to all aspects of people's lives and production.Life has brought a huge change.Speech recognition research in artificial intelligence recognition has always been a key research project.Although the introduction of acoustic theory based on artificial neural networks has greatly improved the efficiency and accuracy of intelligent speech recognition,as the demand for speech recognition increases,it is still there have been some shortcomings.Therefore,it is necessary to improve and in-depth research on speech recognition based on big data and deep learning.This article explores the current situation of intelligent language recognition and uses methods based on big data and deep learning to improve speech extraction,sound simulation and recognition judgment in speech recognition,and so on.Effectively improve the development of speech recognition technology.
【Key words】:big data;deep learning;speech recognition
0引言
早在人类文字诞生之前,语言就作为人们的交流、沟通工具长期存在着,是人类文明交流的重要桥梁和媒介,促进着文明的发展。而到了如今的信息社会,语言仍然是科学家们研究的重点对象,对语音识别技术的研究已经成为人工智能研究的重点领域。在现阶段,语音识别技术在各行各业都得到了广泛的应用,通过计算机解读人类语言达到人机交互智能化。由于语言识别技术的广泛应用,对语音识别的准确率和效率提出了高要求,研究人员也把提高语言识别的准确率作为研究目标,基于大数据和人工智能的深度学习技术,通过建立声学模型的方式对语音识别技术进行深入研究和改进,从而有效提高语言识别的准确性,优化识别效率。
1语音识别研究的相关概述
1.1语音识别的内涵概述
所谓语音识别,简单地说就是让机器听懂人说话,实现人类语音直接对计算机下达命令,而计算机根据识别和处理语音对命令进行执行,从而实现人类与计算机的智能交互化,比如我们日常生活中熟悉的Siri语音助手、天猫智能音响、讯飞语记等产品都是基于语音识别技术的研究而产生的应用。早在20世纪80年代,语音识别研究人员就把隐马尔科夫模型(HMM)应用于语音识别的研究中,得到了令人满意的结果,因此,HMM模型发展到当前时期,已经成为众多研究人员研究图形技术,语音识别技术的重点[1]。
1.2语音识别研究发展理论现状
随着现代信息技术的发展,人类开始重视把人类语言与人工智能进行结合,实现直接用语音对计算机下达指令的目的,研究语音识别技术的目的就是用计算机解读人类语言指令,实现人与计算机的智能化交互。而目前能够实现这一目标的技术主要包括对语音进行识别的技术,识别之后对语音进行编码的技术,还有对语音进行合成的技术。早在20世纪50年代初,研究人员对语音识别的探索就已经开始了,当时的贝尔实验室通过声音频率的共振识别建立了一个单喇叭数字识别系统,可以说是语音识别技术的雏形;1968年,前苏联的科学家发明了动态时间扭曲算法,其中蕴含的把信号分割成帧的技术一直延续到现代技术中;一直到20世纪80年代末,出现了最早的语言识别产品,是来自Kurzweil应用的新型混合模型智能识别器。回顾语音识别技术发展历史可以发现,研究人员对语音识别的研究一直停留在对语音浅层表现形式和计算机神经网络的研究上,而直到2010年,才开始重视起基于大数据和人工智能深度学习的语音技术研究,并在此基础上取得了不菲的成绩[2]。
1.3深度学习的基本概念
在上世纪初,研究人员Hinton等人就发表了关于人工智能深度学习的构想,并提出了深度学习结构上的非监督逐层训练算法。与此同时,为了能够利用空间的关系,减少参数的数量,优化训练的性能,研究人员Hinton还提出了一种用于深层结构编码的编码器。深度学习是基于大量的数据进行学习的泛化的计算机学习模式,而不是人工设定的机器算法。对深度学习的架构其实更像是模仿人类的神经网络,广泛应用于对图像的识别,对语音进行识别,以及机器语言翻译,设计药物的活动中。是一个多层级的对应空间,同时映射多个不同的隐藏层级,每个层级进行映射结合,形成一种概念上的层级结构,运用下降模式执行反向传播[3]。
1.4语音识别技术应用上的问题
语音识别技术除了需要计算机能够对人类语音信息进行数字化的转换,同时还要准确执行指令,虽然在理论上语音识别研究已经取得了不错的成效,但是在实际应用过程中,还存在一些缺陷和不足。首先是噪声干扰的问题,人们在对机器发出语音指令时,周围环境中存在着不同程度的噪音,比如汽车,电视,其他人的说话声都可能对语音识别产生影响。而对这些噪声干扰,当前的语音识别技术还没有发展出有效的解决方法,对一个环境中的多个语音信息不能够有效识别出需要识别的语音信号,或者干脆跳过对这段语音信号的识别。其次就是端点检测的问题,排除掉噪声干扰的影响,在安静的环境中,端点检测容易对人声信息的开始和结束识别不清,导致语音识别过程中把安静的部分按照静音处理,丢失掉原有的声音信息[4]。
2基于大数据和深度学习的语音识别方法
2.1语音拾取和提取特征
语音拾取是语音识别技术中的重要环节,而语音拾取中的两个关键部分就是采样和端点检测。所谓采样就是对人说话的语言信息样本进行收集,在由计算机里面的语音数据转换器将收集到的语音信号样本转换为数字音频数据,采样环节是语音拾取的初级阶段,在采样阶段中,为了避免低频产生失真的问题,收集语音信号时会采用录制高出最高频率两倍的频率。
端点检测是用于有噪音的环境中,对收集的语音样本进行噪音和语音的分离识别,降低语音编码速率,减少宽带网络消耗和设备能源,又被叫做语音活动检测,具有提高识别效率的作用,进行端点检测的设备叫语音边界检测器。目前,在端点检测过程有两个重要的问题需要突破,第一就是背景环境中的噪音干扰,需要加强对噪音和正常语音的区分研究,实现高效准确地识别稳定的语音参数,采集人声信号。第二就是前后端的确定问题,人类语音发出时到语音开始检测之间存在一个时间上的延迟,所以在语音波形的开始和结尾有些数据会被当做无声而去掉,导致识别到的语音和原稿有一些出入。端点检测是语音识别中的预处理环节,通常采用能量与过零率相结合的算法,选择合理的语音特征,对有用信息进行识别。
2.2模拟训练与语音识别判断
模拟训练包括两个重要部分,一部分是训练,简单地说就是用某一种识别方法,通过训练获取到相关的语音信息,并保存为参考模板,建立参考模板数据库。另一部分是分别对比样本和参考模板,将相似度比较高的语音样本作为识别字表示出来。实现这一过程的技术方法主要有三种[5]:
(1)对语音特征提取的结果模板直接保存。在模拟训练过程中,对提取的语音信号进行识别特征提取,提取出相应的识别字,识别字具有向量序列,通过与各模板之间进行比较,将序列距离最短的判定为所需要的语音信息。计算距离时,应整体考虑训练模板中相同的字母或单词,瞬时速度不同,在时域方面,计算模板信号时,应合理应用弹性匹配概念。
(2)请不要判断各汉字是由特征向量识别的保存方法。例如,aij意味着i的状态被转发给j状态方向的概率,bi表示i状态的各状态的输出概率。在实际学习过程中根据每个训练师的声音特性,正确估计aij和bi,标准是训练在序列指定过程中,将原始状态转换为最终状态的最大输出概率等。如果aij和bi保持固定值,则每个训练序列将获得相应的训练序列,相应的输出概率和问题可以通过最佳的路由方法有效地解决。通过与实际情况的结合,以最佳的路由选择作为基础,合理地对计分规则进行设置。具体到每一个语音的识别时,可以通过计分求法的方式,借助状态图的模型计算出需要识别的汉字语音,得出相应输出的概率特征。这种方法又被称为基于Markov的隐形识别模型。
(3)就是这样解决动态语音时间问题,选择正确的方法使用语言将私有声音合成分为n个部分,计算每个私有声音部分的平均值(即中位置)找到n个属性向量作为模板[6]。
3基于大数据和深度学习的语音识别技术的应用前景
3.1广泛应用于社会日常生活和工作
随着信息技术的不断深入发展,当前社会已经进入到信息化现代化社会,人们在日常生活和生产活动中,对电子产品的依赖也越来越多,而语音识别技术应用于电子产品有利于提高人们对电子产品使用的满意度,为生活带来更多便利。但与此同时由于使用频率的增多也暴露出许多问题,也对用户体验满意度有一些负面影响。而基于大数据和深度学习的语音识别技术如果能够广泛应用于电子产品的语音助手中,在未来的人机交互体验中,能够有效提高网络对信息处理的宽容度和深度,同时还有利于减少语音识别中的噪音干扰带来的不利影响[7]。
3.2使计算机变得更加智能化
基于人工智能深度学习的语音识别方法,神经网络算法更贴近人脑,还讨论了信息的过程和方式,分析信息和处理信息。因此,我们可以拥有非常强大的感知能力和的看和听、看、读等视觉信息,扩充感觉知识领域,精准判断识别语言并使用逻辑网络,做出及时有效的决策,从而做出有效的输出,在一段时间内实现人机之间强大的信息交互[8]。
3.3推动人工智能产业链发展
基于大数据和深度学习的语音识别技术能够在识别语音信号的同时,对人类语音信号进行精准的分析,并输出决策性的信息,使计算机服从人类语音命令的要求,提高用户的人机交互体验。在语音识别技术发展过程中,还推动了智能语音识别软件的出现,产生了许多识别语音的智能产品,例如Siri、天猫精灵、讯飞语记等产品,通过收集用户的语音习惯特征,提高产品识别的精准度,扩宽了产品应用场景和范围。最后,具有语音识别系统的产品和服务已经逐渐形成了比较成熟的产业链,为社会的各行各业输出语音识别产品,提供多元化和针对性的语音识别服务[9]。
4结语
随着人类社会迈向信息化现代化发展阶段,对语音识别技术的要求也变得更高,人们对人机结合的智能交互化产生了新的要求,对结合度和智能度依赖更强。在对大数据的处理中,基于深度学习的语音识别技术,优化识别效率和精准度是每个语音识别技术研究人员需要重点关注的研究领域。因此本文希望能够通过基于大数据和深度学习的语音识别方法的研究,对改善建立语音声学模型,优化语音识别精确度和识别效率提供一点参考价值,从而满足社会生产的各个领域对语音识别技术的个性化需求。
参考文献
[1]乔永凤,周晓莉,冯志永,等.基于大数据和深度学习的语音识别研究[J].山西师范大学学报(自然科学版),2020,34(3):23-26.
[2]朱龙珠,盛妍,刘鲲鹏.基于深度学习的海量语音数据识别及分类方法研究[J].电子设计工程,2021,29(9):116-120.
[3]张威,刘晨,费鸿博,等.基于DL-T及迁移学习的语音识别研究[J].工程科学学报,2021,43(3):433-441.
[4]薛文韬.基于深度学习和迁移学习的语音情感识别方法研究[D].镇江:江苏大学,2016.
[5]汪光璟.基于深度学习的教育场景语音识别声学模型研究[D].兰州:兰州大学,2019.
[6]吕惠炼,胡维平.基于端到端深度神经网络的语音情感识别研究[J].广西师范大学学报(自然科学版),2021,39(3):20-26.
[7]姚森.基于深度学习的语音分离和识别技术研究[D].哈尔滨:哈尔滨工程大学,2018.
[8]刘伟波.基于双微阵列与深度学习的稳健语音识别研究[D].桂林:桂林电子科技大学,2019.
[9]李鹏程.基于深度学习的语音情感识别研究[D].合肥:中国科学技术大学,2019.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/39900.html