亚马逊语音识别如何做到“后发制人”？

　　序 · Fire Phone失败了，但Echo成功了

　　两年前，亚马逊经历了一场戏剧性变化——被寄予厚望的智能手机Fire
Phone在上市遭遇惨败，几个月后推出的智能音箱Echo却大获成功。亚马逊没有花费太多时间思考，很快作出决定：放弃Fire
Phone，押注Echo。一年之后，它收到了Echo结出的成功果实：

　　- 据研究机构CIRP的统计，Echo上市一年多后，销量已经突破300万台。仅仅是2015年暑假，亚马逊就卖出超过100万台Echo

　　-
2015年3月-12月，Echo的用户认知度从20%提升至47%。今年6月公开的新销售计划显示，亚马逊计划在2017年卖出第1000万台Echo

　　难能可贵的是，Echo在实现高销量的同时还保持着出色的口碑——它在亚马逊的页面下拥有超过40000条用户评论，评分达到4.4星。赞美之词不胜枚举。

　　一 · 语音识别：亚马逊“后发制人”

　　Echo不是一台传统音箱，亚马逊在里面注入了最新的语音识别助手“Alexa”。除了听音乐，用户还能用Echo叫外卖、打车、安排日程、查询天气——你只需对着它说出命令即可。

　　智能手机的故事已经基本讲完，行业将迎来人工智能的高速发展。苹果、谷歌、微软……人们熟知的硅谷巨头都在调转船头，发力人工智能。

　　语音识别被认为是人工智能的核心应用之一。苹果在亚马逊三年前就推出了智能语音产品;谷歌稍晚，但也比亚马逊早两年。然而现在亚马逊凭借Echo实现“后发制人”，谷歌已经成为它的模仿者。

　　它是怎么做到的?

　　二 · 只提供一种交互，迫使用户使用语音

　　如何让用户使用语音服务?苹果和谷歌采用了相同的方案。它们将语音服务整合进手机系统内，通过高使用频率的手机来带动用户对语音服务的使用。

　　但问题是，智能手机拥有成熟的输入方案——文字输入法比语音更便捷、更高效，语音服务缺乏足够的使用理由。研究机构Creative
Strategies的调查显示，62%的安卓用户表示很少或偶尔使用语音助手，iPhone对应的比例为70%。

　　为了“迫使”用户使用语音，亚马逊Echo只提供语音一种交互方案。除了扬声器和麦克风，Echo没有其它交互接口。

　　Echo对交互的限制，保证了语音交互的纯粹性和持续性：用户只能使用语音，不会被其它输入方式带走。当习惯养成后，他们会持续不断地用语音与设备互动。

　　三 · 定位于家庭，缓解与机器对话的尴尬

　　只提供语音交互并非Echo成功的唯一因素。如果没有解决用户不愿使用语音的根本问题，这样做可能会带来另一个问题——用户放弃使用产品。亚马逊显然不愿看到这样的结果。

　　Echo成功的另一因素在于它定位于家居，而非手个人助理。

　　Siri和Google
Now定位于个人助理，于是它们依附于手机，期待通过手机的高频使用普及服务。但手机作为个人设备，多数情况下在公开场合下使用。在公开场合下用语音对手机发号施令，使用者很容易陷入尴尬。

　　Creative
Strategies调查了300名手机用户在公开场合下使用语音助手的比例。结果显示，安卓用户中，只有12%会在公开场合下使用语音助手;iPhone的比例更低，只有3%。

　　产品和使用场景没有恰当匹配，造成了Siri和Google Now的使用尴尬。

　　Echo采用了不同的产品定位，巧妙地避开了用户使用语音助手的尴尬。它从一开始就定位于家庭设备——体积较大，不宜随身携带;没有独立电池，必须连接室内电源才能使用。尽管对着机器说话依旧怪异，但家庭环境缓解了用户的使用压力。用户面对的是熟悉的家人而非公共环境下的陌生人。

　　四 · 提供针对性软、硬件优化，适时开放产品

　　在明确Echo的交互方式和产品定位之后，亚马逊对它进行了针对性的硬件和软件优化。

　　为了能让用户在家中的任何位置都能唤醒Echo，亚马逊设计了一个名为ARS的自动语音识别处理系统。ARS由七个麦克风和一个音频信号过滤系统构成。七个麦克风组成的列阵能让Echo捕捉到环境中的细微声音，音频信号过滤系统过滤掉环境噪音，从而辨别出人声。使用ARS后，即使用户在25英尺(7.62米)之外发出命令，Echo也能够准确识别。

(Echo的麦克风阵列)

　　识别之后，如何理解用户的语音命令?亚马逊又设计了“关键词识别”系统。Echo收到的语音命令被系统拆分为多个字段，它们与云端储存的关键词模型逐一比对，匹配度最高的部分被认为是用户发出的语音命令。

　　在先后增加对多款智能家电的支持之后，2015年6月，亚马逊推出了语音服务“Alexa”开发包，正式开放Echo。两家为Echo开发音乐播放和家电控制服务的公司还获得了亚马逊提供的1亿美元资金。

　　开放策略收效显著。2015年，Echo整合的第三方服务只有14项，今年已经上升至950项。目前这个数字在持续增长。

　　今年3月，亚马逊又推出了两款面向中、低端市场的智能音箱：Tap和Dot。Echo家族的设备和服务在不断壮大。

　　结语 · 手机红利消失，人工智能将启航

　　2007年，第一代IPhone推出。在接下来的近十年里，它和安卓至少带动了硬件销售、移动通讯、电商、手机游戏四个领域的发展。移动互联网风生水起。

　　但高速发展之后，智能手机和它所带动的相关产业都陷入了发展瓶颈。代表性的变化是，iPhone在今年第三季度的销量下降15%，营收同比下滑23%。移动通讯、O2O、手机游戏等领域的格局也已基本确定，市场被大公司把持。

　　人工智能被认为是下一个科技热潮。语音、图像识别，深度学习等技术将大大拓宽现有技术的应用边界，工业、农业、医疗等互联网化程度低的产业都将被重新改造。

　　作为核心技术之一，智能语音能够应用于汽车、通讯、企业服务等多个领域，它可以让车主在驾车时与汽车互动，也可以改善智能手表等小屏设备的输入体验……人机交互将因此改变。

　　Echo让智能语音的发展再进一步。过去几年，苹果、谷歌都推出了自己的语音助手，但它们更多是手机的辅助，目的是让手机更好用。Echo则不同，它完全为语音设计、不依赖手机，同时成功地赶上了物联网繁荣的时期。Echo的成功归功于亚马逊对产品定位、使用场景和市场前景的准确判断，这些经验会让亚马逊在未来人工智能的竞争中走得更加从容。