聪明的演讲者还是聪明的听众?

2017年6月9日

苹果(Apple)的新款HomePod、亚马逊(Amazon)的Echo和谷歌Home都被认为是智能音箱，但真正重要的是它们能在什么时候收听。

威廉·g·黄

智能音箱是目前的热门产品，但它们确实是智能听力设备。像《钢铁侠》(Iron Man)电影中的贾维斯(Jarvis)那样，用声控电脑拍摄的科幻电影只有在到处都有监听设备和扬声器的情况下才会奏效。我们缺少的是一大堆苹果HomePods,亚马逊反射,微软/Harman Kardon的Cortana,谷歌家庭智能音箱(图1)托尼·斯塔克的房子里都挤满了人当然，在建造房子的时候，亿万富翁们会把这些都藏起来。

苹果(Apple)的HomePod加入谷歌Home的行列，挑战亚马逊(Amazon)的Echo。这些都是相对简单的设备，尽管设计精良，它们由一个无线SoC驱动一两个扬声器，并连接到一堆麦克风上……“亲爱的，这样能更好地听到你说话。”

1.苹果(Apple)的HomePod (a)、亚马逊(Amazon)的Echo (b)、微软/哈曼卡顿(Microsoft/Harman Kardon)的Cortana (c)和谷歌Home (d)智能音箱正在打造“音频墙花园”。

这些设备可以简单地充当无线音箱，从你的智能手机或电脑等源传输音频。它们往往只有有限的控制，需要智能手机进行远程控制或口头命令。

对于后者来说，连接到互联网是一种混合，因为这些都是物联网(IoT)设备(图2)设计的目的不仅仅是演奏音乐。它们的功能扩展为家庭控制中心，以及订购产品和服务的平台(参见“说到秩序:谁是赢家?”)．它们还可以做一些有用的事情，比如在互联网上查找有关当天天气的信息，或者向你的日历中添加事件。

这些神奇的东西大多发生在云上，这意味着如果互联网连接不能正常工作或本质上是短暂的，这些平台的功能将会减弱。这使得它们在某些连通性较差的环境中的适用性受到怀疑(参见“破坏网络中立会杀死你的客户基础吗?”)．高延迟环境也会使交互具有挑战性。

尽管如此，这些平台并不仅仅是低端的微处理器，它只是双向传输音频信息。它们通常配备了强大的多麦克风硬件和软件，旨在提高交互式语音响应(IVR)支持，以及区分多人说话和他们相对于设备的位置的能力。

之所以要在云环境中进行大量繁重的工作，原因之一是使用了诸如人工智能(AI)、机器学习和深度神经网络(DNN)支持等工具。如果有更强大的计算能力，甚至专门的AI和DNN硬件，它们就能更好地工作(参见“cpu、gpu、现在的AI芯片”)．

自己动手

开发者可以从不同的角度来定位这些平台。可以构建您自己的这些平台版本(参见“打造自己的Alexa Echo”)．这使得从冰箱到电视的各种设备都可以内置IVR支持。走这条路有两个原因。首先，它提供了一种控制设备的方法。其次，它允许更换或补充设备，因为一个设备通常只能覆盖一个房间。亚马逊甚至在购买多个Echo Dots时提供数量折扣(参见“《小绿人进攻!》）．

2.智能音箱只是物联网环境的一部分，物联网环境还包括产品和服务的购买和交付。

部分挑战是提供音频支持，以便设备能够正常工作，这使得音频处理成为一个热门的嵌入式话题。另一个挑战是与环境中的其他设备协调。最初，人们会在家里或办公室里发现单一的设备，但在未来，多个设备重叠覆盖将成为常态。我们不希望仅仅因为请求被多个设备听到就发出两个相同的命令。同样，类似于wi - fi的漫游——但是以音频形式——在未来可能成为可能。

软件开发人员可以创建与Siri、Alexa、谷歌助手和Cortana一起工作的应用程序。这种支持可用于为新硬件或现有硬件提供支持语音的服务。这些可以通过局域网或互联网与智能扬声器相关联。

开发者面临的主要问题是:“我应该支持哪个平台，支持多少个平台?”这是因为它们本质上是专属的围墙花园，对于硬件开发者来说，支持一个或多个平台是一种挑战。

未来会有第五个平台吗?这还有待观察，但这将是一场艰难的斗争，与四个重量级的已经在混合。除了语音识别和云服务，在这个领域竞争还需要相当多的服务。