EDN China > 设计实例 > 消费电子设计 > 音频处理 > 正文
? 2016博客大赛-不限主题,寻找电子导师,大奖升级??

(多图) 3D语音处理技术成就类Siri应用

EDNChina编译?? 2013年08月09日 ?? 收藏0

尽量减小语音识别应用中的错字率

为了评估改进的语音质量如何影响虚拟辅助(Virtual Assist)性能,需要开展错字率(WER)的测试。测试中根据以下公式计算口语序列和识别序列之间的错字数:

其中,S是替换的字数,D是删除的字数,I是插入的字数,C是正确的字数,N是参考信号中的字数(N=S+D+C)。

语音脚本规定用带3D语音处理和2D语音处理的移动手机上的商用化虚拟辅助系统加以描述,其中包含有不同的背景噪声类型,比如咖啡馆、酒吧、汽车和火车,然后分别计算3D语音处理和2D语音处理技术时的错字率(WER)。

为了了解测试平台性能,测试使用了如图4所示的装置。测试在听音室中进行,室内有一个人头和躯干模拟器(HATS)。待测移动手机固定在人体模型的头上。符合ETSI EG 202 396-1的背景噪声通过一个由主PC触发的PC注入4个扬声器和1个低音炮。HATS的嘴巴播放“专门的干净语音”,这个语音是从主PC那里通过模拟前端(Head Acoustics公司的测量前端MFE VI.I)馈送出来的。被移动手机捕获到的语音则通过虚拟辅助系统转换为文本电子邮件,然后通过分析接收到的文本邮件计算误字率。


图4.0:错字率测试装置。

测试结果如图5所示。当使用3D语音处理技术时,所有噪声类型下的误字率都在10%-15%范围内。当使用2D语音处理技术时,误字率在18%至60%之间,具体取决于噪声类型,这意味着在噪声环境下采用2D语音处理技术的自动语音识别(ASR)功能是不一致的,在有些噪声类型时能很好地工作,遇到其它噪声类型时性能可能很差。然而,我们可以从图5看到,如果采用3D语音处理技术,自动语音识别性能的劣化非常有限,并且对所有噪声类型是一致的,因而使得虚拟辅助系统在各种不同噪声环境具有明显更高的可靠性。


图5.0:利用3D语音处理技术可提高虚拟辅助可靠性。

分页导航

第1页:增加用于高级噪声抵消的传感器

第2页:尽量减小语音识别应用中的错字率

第3页:利用3D语音处理提高语音通信应用的质量

第4页:3D语音处理附加值


《电子技术设计》网站版权所有,谢绝转载


?? ?? ??


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

1.扫描左侧二维码
2.点击右上角的分享按钮
3.选择分享给朋友
?? ??

3D语音处理? 类Siri? 噪声抵消?

相关文章

我来评论
美国的游客
美国的游客 ??? (您将以游客身份发表,请登录 | 注册)
?
有问题请反馈