变化正在取代机顶盒。别担心:它仍然值得放在我们的电视机旁边。但是,三股强大的力量汇聚在这个熟悉的小盒子上,将其转变为功能和建筑上都引人注目的新事物。这一转变的核心是盒子核心的SoC,在那里,需要以前所未有的价格/性能点来加速机器学习。
三股力量在起作用
推动机顶盒发展的三股力量是什么?第一种是通过盒子的人机界面进行操作。第二种是数据安全,不仅是机顶盒,而且是整个内容传输网络。第三个改变了盒子处理视觉数据的方式。
人类界面的变化将是最终用户最明显的。现在,消费者与Amazon的Echo和Google的迷你患者偶然说话,他们将没有耐心屏幕菜单或推送演讲命令。我们甚至会耐心等待像alexa,嘿和好的唤醒话语。
很快,我们将期待人类界面吸收上下文,识别发言者,他们的位置和他们的意图,以便系统准确地识别出(并且不是)被解决。我们还应期望该系统以新的方式使用这种语境信息,预测我们的需求和情绪,以便相应地调整娱乐和我们智能的家。
今天的语音命令系统已经可以执行这些功能的小子集。但由于当今机顶盒中缺乏本地计算性能和内存,因此他们必须上传他们收集到云以进行解释的数据。已经存在隐私问题,因为用户实现智能手机和扬声器是窗户进入他们的家园。在某些情况下,这种上行链路交叉国界,可能是非法的。输入我们的第二次力量:用于数据保护的驱动器。
但现在添加更多数据:额外的麦克风,集成到设备中的摄像机(如例如,门户电视),也许甚至来自安全摄像机的视频,以实现多模态用户界面。一起携带,这种数据集太个人无法在家外露出。没有沉重的压缩,它可以抹去直观的人机界面所需的微妙提示,甚至没有上游带宽将所有这些数据推回云。本地设备必须具有分析设备本身边缘处的数据的容量。今天,这意味着能够运行非常快速的机器学习推断模型。
这就引出了第三股力量:4K超高清显示器在发达国家的压倒性采用(最近的估计显示,40%的美国家庭拥有4K电视)正在造成下游带宽的危机。内容提供商只提供少量的4K源材料。而系统运营商根本没有足够的带宽一次性提供无尽的高质量4K流。在高峰需求期间,许多系统可以为每个用户提供不超过5到6 Mb/s的服务。尽管HEVC/AV1编解码器在低比特率下可以做得非常好,但从4K源压缩到6mb /s的内容流并不会带来愉快的观看体验。
因此,系统操作员编码1080p源而不是4K源。这在低比特率下产生了更好的观看体验,但即使是最好的HEVC解码器也无法恢复1080p源以外的4K显示数据。
编解码器不能这样做,但是这样的公司Synaptics.已经表明,它可以通过机器学习模型。通过分类图像的部分,模型可以推断出原始外观并产生适当的附加像素,例如虹彩的虹彩罗纹或源中不存在的刀刃的真正锐度(图1).这不是插值,而是基于意图的图像生成——就像一个熟练的画家可能会粗略地勾勒出一个室外场景,然后在他们的工作室中添加细节。
这种性质的像素生成是一种用于图像增强的强大方法。但它需要机器学习模型,以实时处理HEVC / AV1解码器,帧帧的输出。提高了两个问题:首先,在现代化的高性能GPU可以实现所需的计算速度,远远超出了机顶盒的成本或功率预算。其次,深度学习模型将以可视形式处理第三方受版权保护的数据,因此必须可以识别地保护。
AI挑战
通过多模态用户界面,增加安全性和图像增强朝着相同的结论来朝着机顶盒施加到机顶盒 - 需要在机顶SOC中的强大,灵活和安全的推断 - 加速引擎的需要。乍一看,这可能似乎是一种绝望的要求。GPU具有这些任务的速度,但不要接近预期的机顶盒成本或电源限制。它们在培训机器学习模型的数据中心中非常宝贵,但它们不适用于在网络边缘推动。
一个更有希望的例子来自智能手机。新兴的手机包括在设备的SOC中的推动加速器IP块。有希望的方面是这些块符合其环境的成本和功率要求。但是,这些加速器的性能受到这些严格要求和内存带宽的限制,仍然很短暂地在实时30到50帧/ s上执行图像增强所需的时间。
一个解决方案
一个帮助解决机顶盒AI加速挑战的SoC例子是Synaptics的VS680。它使盒子成为人类和智能家居之间多模式界面的神经中枢。
该平台包括高级集顶部SoC的所有预期块(图2).但关键的创新集中在一个全新的IP块上:针对机顶盒环境的要求进行优化的人工智能推理加速器,旨在应对多模式人机界面、增强安全性和实时图像增强等新挑战。
显然,这些领域的第一个挑战是表现(图3).对于用户界面,SOC必须从多个麦克风通道,语音识别和配对,来自多个摄像机的对象分类,以及实时地识别的对象分类来执行各种任务初级扬声器隔离的电池。所有这些任务都必须检测正确人员的命令并识别自适应人机界面的必要上下文。
为了在机顶盒的约束下实现必要的性能,它进行了三项创新。首先,使用了一个大规模并行架构,它围绕着机器学习网络数据流组织起来,而不是围绕着图形渲染的需求。这允许在推理计算期间,跨各种模型类型更有效地处理数据。
其次,最密集的计算(卷积)是在INT8而不是FP32格式中执行的,这大大降低了每个单独计算的硬件和能源需求。这种优化已经多次被证明对分类精度影响很小。
第三,加速器配备了丰富的内存带宽。相同的片上神经处理单元(NPU)缓存与DRAM的64位,非常高速LPDDR4(3733)接口组合。这允许使用DRAM带宽进行同时推动加速和视频解码和图形渲染。
下一个挑战是安全性。传统的SOC架构以CPU内核为中心,允许恶意演员访问受保护数据的太多方式。传统的机顶SOC已经走到很大的长度,以使CPU能够获得对视频缓冲区的访问,其中内容以未保护的形式驻留。添加推断加速器时,该加速器还必须处理已解除次数据时,必须确保不仅是视频缓冲区,而且不仅是加速器使用的所有内部存储器实例,都是由CPU无法读取的。Synaptics的Sykure Technology实现了这种隔离。
总体而言,该系统实时执行逐帧图像增强,全4K输出高达50帧/秒。
全面的环境
引入AI加速的附加维度提出了一个重要的新问题。如果机器学习的加速器无用的机器学习模型和自定义,维护和增强它们所需的开发环境是无用的。为此,Synaptics提供各种培训的推理模型。它还支持Tensorflow Lite和Onnx神经网络开发环境中的VS680,使加速器成为真正开放的设计(图4).
安全,AI增强的SoC可以将集内盒的基本上封闭的世界弥合到感知,自适应人界面枢纽的开放式未来的差距。他们将使开发人员有机会创建明天的人力界面,依靠机器学习来将盒子的传感器输入转换为对用户的需求和需求的看法。通过调整和再培训推理模型 - 没有硬件更改 - 它们可以在感知用户界面设计中具有新的时装以及视频演示的进步。
Gaurav Arora是系统架构和AI / ML技术的副总裁Synaptics..