EDN China > 行业资讯 > 医疗电子 > 视频诊断与监控 > 正文
? 2016博客大赛-不限主题,寻找电子导师,大奖升级??

2016技术前瞻:用正确姿势叩开新年‘技术之门’(下)

EDN China 麦迪编译?? 2015年12月30日 ?? 收藏2

语音激活等自然人机交互方式,将变得更为普遍

还记得Siri技术带来的冲击吗?在查询信息时,我们越来越多的想到诸如“Hey Siri”等语言来激活语音助手,而在驾驶时,也经常语音控制手机中的谷歌地图。

再一个后来者是Amazon的黑科技,ECHO,是一款内置了像Google Now和Apple Siri的私人语音助手音箱,能为用户房间提供音控系统。在音箱上集成语音助手,瞄准的是智能家庭应用。

接着又是“OK,Google”,可用来激活Moto 360智能手表,连谷歌的Chrome浏览器也支持‘OK,Google’功能。尽管近期,出于隐私考虑,该公司去掉了“Always listening”默认选项。但这类带语音激活功能的产品越来越多,在Apple TV和Amazon Fire TV媒体播放器中,如果版本升级,同样可以获得语言助手的帮助。

图4:Amazon的ECHO,定位于私人语音助手的音箱
图4:Amazon的ECHO,定位于私人语音助手的音箱

在语言交互功能爆发的背后,我们能看到的部分答案是:在所有这些情况下,语音控制(也被归到‘自然用户界面(natural user interfaces)’范畴,当然自然用户界面也包括了像微软Kinect的手势识别)与传统点击鼠标、键盘相比,是一个与硬件交互最直观、最自然的方法和服务。事实上,自然用户界面也是各大科技公司考虑布局的重要方面。

语音控制技术的爆发是几个关键因素的组合:

在某些情况下,算法技术革命性的改进;

处理器在性能、功耗、成本效益等方面的优化;

广泛的、高带宽和快速响应能力的“云”服务器资源,来得到额外处理和存储能力;

“深度学习”是其中一个关键的创新。作为神经网络最新的产物,卷积神经网络(Convolutional Neural Network,CNN)是深度学习算法在图像、声音处理领域的一个应用。卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。利用强大的处理能力和大量的存储,现在可以分析丰富的数据,如静止或视频图像,并能捕捉声音流和其他声音剪辑。

虽然,具有移动能力的神经网络处理器(人脑芯片)已陆续出现,但很多“特征提取”识别(当然是初始训练中)仍主要发生在云中。这就是为什么具有可靠性和快速响应的网络连接是如此关键。

此外,EDN也关注到最新一代的语音接口设备的Always listening功能都是由一个关键短语触发的。这个功能显然可以通过主核多核应用处理器来完成,但它会迅速导致电池耗竭(这也是为什么‘Hey Siri’功能在iPhone 6产品前只有在交流模式下能用)。这也导致很多方案采用DSP来解决这部分问题。

当然DSP厂家并不会高兴得太久,在苹果iPhone 6s中搭载了全新的A9+M9的芯片组合,M9(Sensor fusion)协处理器就被用来执行包括语音激活系统的唤醒功能。高通的骁龙820同样嵌入了独特的“低功耗”Hexagon DSP核,来取代依靠一枚独立的DSP芯片。当然,更重要的趋势是,作为重要的自然人机交互方式,语音激活会不断蔓延开来。(EDN China 麦迪编译)

【延伸阅读】

2016技术前瞻:用正确姿势叩开新年‘技术之门’(上)

2016技术前瞻:用正确姿势叩开新年‘技术之门’(中)

【分页导航】

《电子技术设计》网站版权所有,谢绝转载


上一页123下一页
?? ?? ??


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

1.扫描左侧二维码
2.点击右上角的分享按钮
3.选择分享给朋友
?? ??

语音激活? 能量采集?

相关文章

我来评论
美国的游客
美国的游客 ??? (您将以游客身份发表,请登录 | 注册)
?
有问题请反馈