SCI论文(www.lunwensci.com):
摘要:人工智能是具备信息感知、逻辑运算等能力的智能系统,和人类思维模式高度相近,可以感知语音、图像和其他信息。人工智能产品在生活中极为常见,人工智能可促进各行业的发展。合理运用人工智能不但能够实现技术层面的变革,而且能推动社会的发展和进步。当前,大数据和云计算的发展使语音技术逐渐优化,人工智能的感知能力越来越强,并逐渐发展为认知能力。本文简要论述几种人工智能技术之下的远场语音识别技术,分析远场语音在智能家电领域中的设计应用,并尝试用麦克风阵列实现远距离的拾音、消除回音、定位原声等目标,最终达到智能语音领域的使用要求。
关键词:人工智能;远场语音;识别技术
Analysis of artificial intelligence medium and farfield speech recognition technology
Luo Yong
(Wenshan College,Wenshan Yunnan,663099)
Abstract:In a broad sense,artificial intelligence is a kind of intelligent system with the ability of information perception and logic calculation,which is similar to human thinking mode and can sense speech,image and other information.The artificial intelligence product is extremely common in the life,under the artificial intelligence support,provides the huge support for each profession development.The rational use of artificial intelligence can not only achieve technological changes,but also promote the development and progress of society.
Key words:artificial intelligence;far-field speech;recognition technology
在人工智能领域技术快速发展的过程中,智能机器的生产如果利用远场语音识别这类技术,就能在远距离空间内对语音信息进行采集、识别,并通过人机对话获取使用者意图,从中提炼有效信息。人工智能类产品的智能化水平较高,若将人工智能技术和家电进行融合应用,则用户只需要开口讲话,系统就可自动连接大数据后台,并根据用户喜好推荐相关功能。因此,将人工智能和智能家居管理系统结合起来,就可以利用语音完成设备操控,就能通过远程语音技术为人们提供便利。
一、人工智能中的远场语音识别技术
(一)远场拾音
远场拾音是指在5m-8m范围内进行语音采集。该技术的应用能在人工智能的支持下满足日常生活空间场景内部的语音交流。远场拾音主要利用麦克风阵列,由2-7个麦克风根据控制需求完成位置排列,并借助软件算法,采集不同麦克风语音的信号,定位方向,降低噪音,形成波束,提高使用者的语音体验。和近场技术相比,远场拾音这项技术的应用还需利用软件算法与多路信号。由于近场语音环境下的声源类型单一,因此声音的信噪比相对较高,获得的信号也相对清晰。对比而言,远场语音在声音识别过程中,由于声源位置并不固定,加上噪声源相对较多,致使信噪比下降,在此情形之下,容易凸显传统技术的弊端。近年来,无论是软件算法,还是麦克风阵列的排列方式都变得十分丰富,这在一定程度上提高了远场拾音的能力。但是,远场拾音技术的应用仍然面临诸多挑战。如果室内空间环境噪声大,有电扇或者空调等的声音,则可能对该技术的应用造成影响[1]。
(二)回声消除
在语音交互过程中,回声消除属于“双全工”系列过程,具体指的是在语音播放的同时,完成拾音。在近场拾音的环境下,语音播报的启动、停止可以通过按键进行控制,但是这类技术可能会对人工智能产品的智能化水平造成影响。应用远场拾音这项技术,能够采集更多有价值的信息,并能利用算法解决环境噪音问题。如果设备本身能够发声,那么声音和麦克风的距离越近,则音量越大,产生的干扰也会更大。因此,为了避免语音控制受限问题的发生,必须解决回声问题。而应用回声消除的各项技术是在人工智能设备的发声结构位置旁边设置参考信号,辅助主要控制系统识别声音是否为有效信息,该技术能够起到消除回音的效果。需要注意的是,消除回音的难点在于喇叭、功放等设备存在非线性失真的问题,也就是参考信号、实际声音存在差异的问题。比如,若音响设备拥有良好的重低音,那么使用过程极易产生共振现象,使参考信号的真实性不足,这种情况就需要利用回声消除方式进行补偿。
(三)呼唤引擎
呼唤引擎也可以解读成“呼唤名字”,生活当中常见的有百度的呼唤引擎,口号为“小度小度”;还有苹果的呼唤引擎,口号为“Hey,Siri”。用户应用呼唤引擎可以与人工智能设备进行沟通,设备则可以了解使用者的需求。通常而言,呼唤引擎可在本地设备中使用。在远场语音信息采集完成之后,唤醒引擎会自主判断,分析语音信号和唤醒提示是否一致,如果一致,那么说话者的后续输出语音就可通过设备进行识别;如果不一致,那么智能设备就不会处理后续语音信息[2]。
但在唤醒引擎这项技术应用过程中,会面临以下三方面的问题。
第一,由于唤醒引擎、语音采集的行为发生要智能设备长期处于监听状态,因此只有设备能量储备充足,才能实现常态化运行。例如,苹果公司生产的iPhone 4S最先应用唤醒引擎技术,但需要连接电源才能实现。两年之后,iPhone 6S能够在没有接通电源的情况下支撑手机设备的语音唤醒,原因是智能设备安装了低功耗的语音激活芯片。如果设备未被唤醒,则主设备和低功耗芯片都处于休眠状态,以实现更长时间的待机。但是,除非所有的智能设备都需要安装低功耗芯片,且部分智能设备内部含有多核处理器,才可通过协处理器运行唤醒引擎,达到功耗降低的目的。
第二,设备处于最理想状态之下,唤醒引擎需要一呼即应,不唤醒的时候处于休眠状态。如果发出了唤醒口令却并未唤醒设备,则属于漏唤醒情形;未收到口令却发出声音,则属于误唤醒情形。如果唤醒词语有10个字,那么误唤醒情况的出现就会相对较少,但是漏唤醒的情况会增加;如果唤醒词数量较少,则虽然每次唤醒都能快速回应,漏唤醒问题减少,但是误报情况也会随之增多。因此,技术运用至少要经历百万次的测试,才能保证智能设备能够和多种声音进行匹配,提高唤醒效率。
第三,低功耗芯片的计算能力不足,加上处理器本身运算能力也相对有限,时长为1s的语音需要在相同的时间段之内完成信息处理,才能保证技术的顺利应用。
二、语音识别技术的应用条件
同近场语音识别类似,远场语音需要依托云端平台才能完成信息识别。云平台是依托大数据技术建立的多种计算模型。在采集语音信息之后,平台即可对语音信息展开高速运算和处理,并对语义进行检查,通过关键字提取的方式获取用户意图,从而实现语义识别的目的。在应用过程中,云平台也可作为智能系统的核心,其智能化水平在一定程度上能决定人工智能设备的智能化程度。在云平台应用之下,信息数据的解析不会受到干扰。如果存在多人、近距离说话,则难以通过波束成型这项技术进行分离,需要应用平台中的语音分离技术。考虑到多人说话存在语音重叠的问题,平台可按照每个人声音的音色特点、响度差异、音调高低将语音拆分并重组,而后还原混合音,每种声音可建立单独的传输通道。在云平台的支持下,人工智能的语音近场、远场等识别可更加精准[3]。
三、人工智能远场语音识别的应用案例
本研究将人工智能电视作为研究对象,对其远场语音的应用设计进行说明,重点论述硬件、软件等设计。
(一)硬件设计
系统使用条形阵列,即由4个麦克风组成,模拟麦克风通过ADC向MCU传输信号。MCU主控方案是一个32位的ARM芯片,内置512KB RAM,具有低延迟的特点,工频超过84MHz,工作电压在1.7V-3.6V之间。ADC向MCU传递模拟信号,MCU则利用TV SOC、USB 2.0来传输音频数据。麦克风阵列和算法进行搭配,可以定位声源,并发挥去混响和降噪的作用,能快速消除回声,让波束成型。
麦克风使用信噪比为74dB、灵敏度为-25dB的材料,通过外拉接线方式连接,可以避免受高温造成麦克风的损坏,并确保阵列灵敏度整体一致,从而达到整体算法精度方面的要求。需要注意的是,只有保证整机装配设计质量,才能保证麦克风的应用。
若系统供电模块设计为独立形式,那么即使电视处于待机状态,也可利用唤醒操作将其开启。模块设计可对电视机的待机、开机等状态进行区分,并通过唤醒词将语音应用开启。在待机模式下,唤醒词利用I/O接口就能发起开机口号,因此在待机情况下,当供电关闭500ms的时候就能重新启动。模块对USB信号进行重新读取以后,就能对主机状态进行判断。
在参考信号的设计方面,则由主机端为供给模块提供音频参考,以此作为消除回声的算法依据。功放放出参考音频的信号,并经分压和滤波后向模块传输,按照芯片信号的取值范围,保证向模块输入的信号小于或等于1Vrms。此外,信号分压需要注意阻值误差、寄生电容等对拆分信号阻抗造成的影响[4]。
(二)软件设计
软件组成部分有两个,一是本地处理,二是云端处理。在本地处理模块中,主要包括回声消除、声源定位、波束形成、去混响、降噪、增益调节、频域均衡等结构。云端处理则主要是对接收音频的文本进行识别,并处理自然语言,通过逻辑处理后,利用服务器向用户反馈。
回音消除主要是通过自适应回声的抵消,对回声路径特征参数进行预估,并将回音路径模拟出来,从而获得回声信号,并在接收信号过程中将回音去除,实现抵消目的。麦克风在具体应用阶段能够直接接收目标语音,也能在传递目标语音过程中通过衍射和墙面反射等方式实现混响,避免本地噪音与环境噪声带来的干扰。分布式阵列完成声源定位包括以下过程:先对接收的信号进行函数运算,然后根据信号的时延差获知目标音源的方向与角度。在波束成型的过程中,同样要发挥麦克风的阵列特点,对噪声进行抑制,让麦克风阵列能够和目标信号的质量更为接近。
在语音识别阶段,技术人员可以通过远、近场拾音技术识别录音文件,并对结果进行转换。技术人员利用语音服务器将识别结果合成的人声反馈给用户。识别服务器能够识别电视录入音频,识别结果可利用文本形式向服务器发送,完成语义解析,并根据远场和近场技术运用差异进行区分处理。合成服务器还可将识别结果通过基本形式合成语音,对不同人声进行定义,达到差异化播报效果,并自动生成音频文件,向客户端返回[5]。
四、结语
综上分析,人工智能的发展能够为人们提供更便利的生活环境。语音是日常交流的常用方式,利用远场语音识别,可为设备创设更多的交互场景。特别是在智能家电领域,麦克风阵列的应用能赋予电视、音箱、空调、冰箱等家电更丰富的功能。远场语音的应用能够为人工智能服务的优化提供重要支持。技术员利用远场语音进行智能家电的设计时,要注重系统软硬件的配置,注意器件选型,根据技术运行原理完成方案设计,并要充分利用云端后台功能。
【参考文献】
[1]苗江龙.关于人工智能中语音识别技术的分析[J].建筑工程技术与设计,2017(014).
[2]李洪斌,彭洪松.人工智能中远场语音采集的麦克风阵列方案研究[J].数码设计(上),2020(2).
[3]彭洪松,李洪斌,李莉,等.人工智能中远场语音识别技术的研究[J].数字通信世界,2020(5).
[4]唐波.浅析远场语音识别的发展现状与现代化技术[J].科学技术创新,2018(25).
[5]马振洲.AI智能音箱机顶盒的关键部件设计与实现[J].广播与电视技术,2019(10).
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/43568.html