SCI论文(www.lunwensci.com):
摘要:深度卷积神经网络是常用的语音识别模型,可通过卷积结构,保证语音信号时域、频域的平移特性,但是,深度卷积神经网络在实际应用中,仍然会出现语音信号建模能力不足的情况,因此,构建深度卷积神经网络模型,并引入残差块结构,通过Maxout激活函数,对深度卷积神经网络模型进行优化,利用TIMIT语音库进行实验,实验结果表明,深度卷积神经网络模型的准确率提高,语音识别精准度提升,可应用于实践操作中。
关键词:端到端;深度卷积神经网络;语音识别
Exploring End-to-End Deep Convolutional Neural Network Speech Recognition
ZHANG Shouye
(Lanzhou Bowen College of Science and Technology,Lanzhou Gansu 730101)
【Abstract】:The deep convolutional neural network is a commonly used speech recognition model.The convolutional structure can ensure the translation characteristics of the time domain and frequency domain of the speech signal.However,the deep convolutional neural network still has the ability to model speech signals in practical applications.Therefore,a deep convolutional neural network model is built,and a residual block structure is introduced.The deep convolutional neural network model is optimized through the Maxout activation function,and the TIMIT speech library is used for experiments.The experimental results show that the deep convolutional neural network the accuracy of the neural network model is improved,and the accuracy of speech recognition is improved,which can be applied to practical operations.
【Key words】:end-to-end;deep convolutional neural networks;speech recognition
1问题的提出
深度学习的基础网络模型无法对海量的语音数据进行处理,语音识别系统的性能受到直接的影响,语音识别精度已经无法满足人们的要求。深度卷积神经网络与HMM结合,可提高语音帧与帧之间的联系性,在语音识别的过程中,可实现语音识别水平提升[1]。但是,深度卷积神经网络在实际应用中,会受到网络层数的限制,网络层数过多,反而会降低识别效果。因此,通过残差网络,引入Maxout激活函数,可改进以及优化深度卷积神经网络模型,控制深度卷积神经网络复杂程度的同时,可提高语音识别水平。深度卷积神经网络在图像处理领域有广泛的应用,利用残差网络结构,可避免网络层数加深导致的梯度爆炸现象。但是,在语音识别的过程中,对残差网络的研究相对比较少,将CTC应用在深度卷积神经网络中,可构建端到端卷积神经网络模型,与此同时,引入残差块结构,利用Maxout函数对深度卷积神经网络模型进行优化,可提高语音识别的准确率[2]。
2关键技术
2.1端对端算法
端到端结构是语音序列进行分类,CTC为端到端结构的核心方法,可以解决语音识别过程中序列不对齐的情况。输入特征是通过卷积层提取语音特征,池化层可通过最大池化的方法进行处理,Softmax层可通过CTC损失函数进行计算。在全连接层计算与分析后,将数据信息传输到CTC[3]。输入信息数据后,卷积层对数据信息进行处理,并将其传输到池化层,满足语音识别与数据分析处理的综合需求。端到端算法可通过缩减人工预处理以及后续处理,尽可能的减少深度卷积神经网络模型从原始输入到最终输出的误差,提高模型参数的自动调节空间,提高深度卷积神经网络模型的整体契合度。通过深度卷积神经网络模型的应用,可对网络识别过程、建立声学模型,发音词典以及语言模型,并对语音训练过程进行优化。端到端的训练,将声学模型与语言模型连接在一起,通过目标函数训练深度卷积神经网络模型,并对语音识别过程进行优化,提高语音识别精度。此外,端到端训练还可以通过输入到输出端的神经网络连接,对网络模型数据以及数据参数等进行处理,通过网络模型的搭建与优化,对文本数据的网络数据、语言训练过程等进行优化,提高深度卷积神经网络模型的综合处理水平[4]。
2.2深度卷积神经网络
CNN是第一个多层神经网络结构学习算法,通过输入层、卷积层、池化层、全连接层、输出层搭建深度卷积神经网络。CNN卷积层具有权值共享以及局部连接等特性,假设使用W代表输入第a个特征面上的第i个神经元,输出第c个特征面上的第j个神经元之间的连接权值,表达公式如下:
Wa(i)c(j)=Wa(i+1)c(j+1)=Wa(i+2)c(j+2)
在CNN中,卷积层的输出特征与池化层的输出有直接关系,通过Sigmoid函数,可以对池化处理过程进行优化,提高池化处理的综合水平。在池化处理的过程中,可通过均值池化、最大池化的方式进行处理,并在卷积池化处理后,可以建立全连接层,对每一个神经元进行连接与控制,并对局部信息的池化处理过程进行完善,在权值共享处理后,对深度卷积神经网络模型的处理过程进行优化,提高模型的训练效果[5]。
深度卷积神经网络模型在实际应用中,可通过学习网络的搭建,对网络数据进行聚类分析,可对数据参数进行识别与处理,满足数据分析以及信息处理的综合需求。建立样本空间,可对自然分布数据进行划分与处理,在数据分离的状态下,可对样本空间数据进行分析与处理,提高深度卷积神经网络模型的数据识别精度与有效性[6]。建立语音数据库后,对样本数据的处理过程、样本数据等进行综合处理,提高深度卷积神经网络模型对语音数据的识别精度。在建立分类边界的基础上,通过数据分离、对卷积网络的数据映射关系进行调整,在建立语音模块的基础上,可对文本数据的训练数据进行调整,通过卷积网络的搭建与应用,对输入、输出的映射关系进行调整,提高语音数据的识别处理效果。根据深度卷积神经网络模型的特点,对语音空间数据以及非同类区域内的数据等进行综合处理,在数据识别与信息处理的基础上,承担语音识别任务,降低语言识别的词错率[7]。
卷积网络的数据映射过程以及输入、输出的表达,则需要对卷积网络的处理过程、数据的映射过程等进行完善,提高卷积网络的数据处理水平。卷积网络的数据处理过程中,则需要对数据诱导过程进行训练控制,并对输入、输出等数据处理过程进行完善,在网络模拟以及最小随机数的初始化处理下,可对数据传播过程、数据输出过程等进行优化,提高卷积网络的综合处理水平。卷积网络执行的过程中,则需要对模拟的数据处理过程进行完善,在输入网络的优化下,可提高数据的综合处理水平。利用最小随机数,对卷积网络的权值、饱和状态等进行训练与优化,在建立卷及网络的基础上,可对数据矩阵进行初始化处理,提高卷积网络的数据分析、数据处理能力。在向前传播的过程中,在样本中选取样本(X,Yp),将X输入到卷积网络中,并对实际输出Op进行计算。信息从输入层经过数据转换与处理,并将数据信息传输到输出层。卷积网络在完成训练后,可以正常执行计算过程。网络执行过程汇总,可对权值矩阵进行计算,并获得输出结果。在向后传播阶段,可对输出Op与立项输出的Yp之间的差值进行统计与计算,按照极小化误差的方法,建立传播权矩阵,提高矩阵的综合处理水平。
2.3语音识别算法
卷积网络的搭建中,可对语音识别过程进行优化,提高语音训练以及输出数据的综合处理水平。在语音识别与训练的过程中,则需要对预测值以及损失函数等进行检验与分析,在对损失函数进行处理的基础上,可对预测值、真实值之间的差异性进行估计。通过损失函数,建立网络模型,对鲁棒性能进行检验与分析,在这一过程中,损失函数越小,深度卷积神经网络模型的鲁棒性也会提高[8]。CTC可以引入空节点,并对语音帧的似然度进行计算与处理,可在Softmax层建立目标函数,提高数据分析与处理的综合水平。CTC可以通过最大似然函数进行计算,具体的表达公式如下:

L(x,z)=-lnp(z|x)
因此,通过对损失函数进行计算,可通过给定输入与输出序列的计算与统计,获得最大的输出序列。语音识别算法在语音识别处理中,可对训练的目标函数进行整合与处理,通过训练语言模型,对目标函数的最大化训练语音进行处理,在语言训练与优化的基础上,可降低最小化困惑度,以端到端的语音数据训练,可提高语言训练的综合处理水平。
3实验分析
3.1数据库选取
CNN的卷积层在交替连接过程中,为避免出现训练数据规模过大的情况,所以,建立网络数据库,对卷积层的卷积数据以及数据收敛速度等进行调整,解决梯度数据消失的问题。在数据训练与分析中,则需要对数据处理过程、数据库仓鼠等方面进行综合处理,通过信息处理与数据整合,提高数据信息的综合处理水平。因此,将从误差结构引入到深度卷积神经网络模型中,并通过Maxout进行优化,改善深度卷积神经网络模型中的梯度消失现象,提高语音识别准确率。构建深度卷积神经网络模型中,Maxout优化残差结构块进行设计,提高非线性变换函数的综合处理水平。Maxout本身属于前馈神经结构,可通过数据拟合的方式,对神经元进行综合处理,提高激活函数在深度卷积神经网络模型中的应用效果。选取Maxout中最大输出值的激活量为1,其他设置为0,可对隐藏单元之间的关联性进行设计,并获得隐藏单元中的激活函数。与此同时,在局部域内,Maxout函数具有线性特征,鲁棒性比较高,因此,将Maxout应用在深度卷积神经网络模型中,以此为激活函数,可改善神经网络中的梯度消失现象,提高语音识别效果。
残差结构分析与处理中,则可以通过Shportcut进行数据连接与卷积层的输入处理,在卷积层的训练误差分析下,可提高激活函数的综合处理水平。在对激活函数的处理过程进行完善中,可通过加权平均处理的方式,对卷积核结果与激活函数关系等进行整合,提高残差处理的综合水平。结合深度卷积神经网络模型的搭建,对卷积训练过程进行整合,并对神经网络进行优化,解决数据梯度消失的问题。深度卷积神经网络检验中,建立VMware虚拟机+Ubuntu16.04操作系统+TensorFlow+Spyder 2的仿真平台,在英语语料库与中文语料库中进行检验,中文语音识别中,选择清华大学30小时中文语音库为语音识别的资料库,训练集标注为A、B、C组,每组共有250句语音,测试集为D组。英语语音识别系统中,选择TIMIT数据库,并将TIMIT数据库中462人的语音作为训练集,分别对英文、中文语音识别过程进行检验。在检验过程中,通过词错率WER来分析语音识别效果。
3.2参数设计
在中文语音识别的过程中,则需要对中文语音信号进行处理,在预处理的过程中,则需要定帧的长度、帧数的移动距离等进行控制,分别为20、10,在窗函数处理与分析的基础上,可以对MFCC特征进行提取与处理,并对语音特征进行提取与处理。深度卷积神经网络模型在实际应用中,可以通过6层卷积处理后,对数据处理过程以及语音信号特征等进行降维处理,提高激活函数的综合处理水平。1×1的卷积层,设定的卷积核为128,在激活函数后,可以对卷积层的网络结构、卷积核数量等进行综合处理,在参数设置中,卷积核的数量增加到256,并对池化层的处理过程以及网络节点等进行优化。在对损失函数进行综合处理中,识别过程与神经网络模型搭建等进行优化,提高卷积层的综合处理水平。池化层的数据处理,则需要对卷积核的数据处理过程进行优化,初始速率为0.001,迭代次数为16,在激活函数处理与分析中,可通过卷积核的网络结构搭建与优化,对语音特征输入、卷积核网络搭建等进行优化,在数据数据与信息分析的视角下,可提高训练数据的综合水平。在建立英文语音识别系统中,可以用滤波系数,对语音输入过程、连接池化层等进行完善,提高输出数据的有效性与可靠性。卷积层的卷积核为9×9,数据数量为256、池化层则可以通过池化处理,对节点数据进行数据分析与处理,并传输到最终的输出层。
3.3识别结果
相同的迭代次数下,深度卷积神经网络模型的效果比较高,迭代次数为16次的状态下,通过Maxout优化后的深度卷积神经网络模型,词错率为20.1%。与此同时,随着迭代次数的逐渐增加,语音识别词错率会逐渐降低。实验结果说明,深度卷积神经网络模型的鲁棒性更高,Maxout可缓解深度卷积网络训练中所产生的梯度消失问题。CTC结构可提高语音分布关系的处理效果,在接近真实的情况下,语音识别过程中的准确率可逐渐提升。
深度卷积神经网络模型应用下,英语语音识别中,词错率比较低,为17.4%。在语音识别与信息处理中,深度卷积神经网络模型在英文语音识别中的表现比较高。CNN结构在处理语音信号的过程中,可以克服语音本身的多变性,将语音信号的时频域当成图像进行处理,进一步提高语音识别效果。深度卷积神经网络模型在实际应用中,兼具CNN与CTC的优势,在不同语言的识别过程中,词错率可逐渐降低。
3.4结果分析
利用Maxout激活函数对深度卷积神经网络模型进行优化,可实现端到端的数据信息处理与语音识别。完善声学模型的过程中,可通过深度卷积神经网络模型的优化,提高语音识别的准确率。例如,在Thchs-30中文语音库下,不同的迭代次数下,深度卷积神经网络模型的语音识别精度比较高,可满足多语音的语音识别要求。深度卷积神经网络模型在实际应用中,可识别位移、缩放以及其他形式扭曲不变形的二维图形,在对训练数据进行统计与分析中,可通过权值共享的方式,对输入图像、网络拓扑结构等进行优化,在图像处理与分析的基础上,可对深度卷积神经网络的训练参数、网络结构等进行优化,通过神经网络代码,可提高网络参数的综合处理。
4结语
建立深度卷积神经网络模型的过程中,以语音识别分析为导向,并引入残差结构,设计深度卷积神经网络模型,利用Maxout激活函数对模型进行优化,以此实现深度卷积神经网络模型的综合应用效果提升。在TIMIT以及Thchs-30数据库下,可进行实验统计与分析,结果表明深度卷积神经网络模型可提高语音识别的准确率,对提高语音识别水平以及综合处理效果等方面有积极作用。通过对深度卷积神经网络模型中的语音信号进行预处理,可进行MFCC特征提取,并利用语音识别分析与数据处理,提高语音识别的精度。
参考文献
[1]张婷,马延周,李宏欣.基于DCNN的语音识别降噪方法研究[J].现代电子技术,2021,44(23):48-51.
[2]吴向阳,王兵,阮敏,等.基于深度学习的空管语音识别[J].西华大学学报(自然科学版),2021,40(6):45-49.
[3]孙韩玉,黄丽霞,张雪英,等.基于双通道卷积门控循环网络的语音情感识别[J/OL].计算机工程与应用,2021:1-10.
[4]罗建勋.智能语音转写平台的应用[J].现代电视技术,2021(4):143-146.
[5]赵彦,孙俊,时凯欣.N-pod多品牌智能家居语音控制设备的设计与实现[J].电气传动,2021,51(7):59-66.
[6]石鑫鑫,鱼昕,刘铭.FCNN深度学习模型及其在动物语音识别中的应用[J].吉林大学学报(信息科学版),2021,39(1):60-65.
[7]徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S2):139-141.
[8]赵小蕾,许喜斌.融合浅层学习和深度学习模型的语音情感识别[J].计算机应用与软件,2020,37(12):108-112+176.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/38332.html