EDN China > 商情观察 > 消费电子设计 > 音频处理 > 正文
? 2016博客大赛-不限主题,寻找电子导师,大奖升级??

看语音识别如何超越人类

EDNC?? 2014年12月26日 ?? 收藏2

谷歌语音识别Google Now与数字助理交流

  但首先,还是先来回顾一下历史:两年半以前,谷歌和多伦多大学的研究人员发表了一篇颇有影响力的论文,内容是用“深度神经网络”来指导计算机语音技术。几个月后,微软与IBM也合作发表了另外一篇论文,被谷歌工程师杰夫·迪恩(Jeff Dean)称作“语音研究领域20年来的最大进步”。

  这些研究使得一项数十年前诞生的数字神经网络发明再度复活。这项技术1980年代就在大数据预测和分析领域实现了不俗的表现,但当时却受到计算机速度的制约。神经网络直到最近才变成可行的方案,这主要得益于计算机处理速度的加快,以及新型软件模式的发展。

  谷歌实验室也开展了类似的研究。6个月前,该团队从这种名为“前馈神经网络”的古老方法入手,推动了神经网络技术的复活。这项技术使得系统可以储存更多信息,并处理更长、更复杂的序列。谷歌这项突破源自对底层代码的简化,可以在同一套系统中保留更多观点和观念,从而让用户更容易问出复杂的问题,获得有意义的答案。“系统复杂性可能对长期发展构成伤害。”沙尔克维克说。

  谷歌的系统目前使用上下文、物理位置和其他因素进行假设,以此判断语音的真正含义——整个过程与人类大脑的思维模式相仿。谷歌的最新网络技术可以提升这一过程的效率,从而处理比以往更大的数据量,回答更复杂的问题。

  为了解释语音识别技术在未来的工作方式,沙尔克维克提到了谷歌山景城总部几公里之外的一间高级越南餐厅。这家名为Xanh Restaurant的餐厅对典型的语音识别构成了挑战,因为Xanh这个名字(发音为“扎恩”)很难识别。“如果我能找到它在地图上的位置,然后说,‘这是一家餐馆,它位于加州。’那么范围就会立刻缩小。”沙尔克维克说,“借助语义技术,我们便可大幅改善质量。”

  这听起来似乎很简单,但对电脑来说,听到一个单词,然后把它放到句子上下文中去辨识,再与地理信息相结合,是十分困难而且耗费时间的。如今,谷歌语音搜索已经可以正确识别餐馆。沙尔克维克表示,谷歌今后将可以处理其他一些同样野心勃勃的问题。

  沙尔克维克表示,在谷歌内部,语音识别技术已经实现了空前的进步。虽然谷歌的重大进步还要再等一两年才能应用到用户的手机中,但这个项目已经催生了很多可以应用于谷歌其他项目的技术。“开发登月项目的同时,还会同时设计出另外一百项有用的技术。”沙尔克维克说。

  沙尔克维克表示,谷歌语音识别技术3年前只能认出3/4的口语单词。但得益于创新速度的加快,谷歌手机应用现在可以正确识别12/13的单词。据图塔尔介绍,要不了多久,“我们就将生活在一个没有键盘的世界里。”

《电子技术设计》网站版权所有,谢绝转载


?? ?? ??


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

1.扫描左侧二维码
2.点击右上角的分享按钮
3.选择分享给朋友
?? ??

语音识别?

相关文章

我来评论
美国的游客
美国的游客 ??? (您将以游客身份发表,请登录 | 注册)
?
有问题请反馈