电子设计26555人工智能推广

关于神经推理的四大误区

2019年4月22日
像任何新技术一样,人工智能和神经推理将遵循一个学习曲线,直到行业真正了解它们是什么,如何使用它们,以及如何适当地衡量它们,以区分它们。

人们对在“边缘”实现神经网络推理非常感兴趣,在数据中心之外的任何地方,在从汽车到摄像机的各种设备上都可以实现。然而,到目前为止,实际的部署还很少,系统设计人员的学习曲线非常陡峭。因此,有几个关键的误解围绕着什么是一个好的推理引擎,最重要的是,如何衡量它们以确定哪一个性能最好。本文将消除这些误解,并解释工程师如何准确地比较不同的解决方案。

现在大多数人工智能处理都是在xeon、fpga和gpu上的数据中心进行的,这些数据中心的设计都没有优化神经网络的吞吐量。神经网络的开发或训练将继续在浮点密集型硬件上进行。

人工智能正在向数据中心以外和边缘设备转移。

推理是经过训练的神经模型的执行。在对浮点模型进行量化后,采用整数算法实现,以使低成本、低功耗的推理加速器芯片具有更高的性能。

误解1:TOPS是比较推理加速器的好指标。

几十家公司正在推广推理加速器芯片和IP,几乎所有的公司都提到了他们的TOPS和TOPS/watt (TOPS =数万亿的操作/秒)。不幸的是,TOPS已经成为一个营销指标,其中Operation的定义并不明确,使用了峰值性能,并且没有给出操作条件。

Operation的一种定义是,它可以是一个大小未指定的加法或乘法。乘法累加(MAC)是构成推理引擎中大量算术的重复操作。然而,一些供应商也考虑了其他业务,以提高他们的TOPS。

TOPS是峰值数字。如果必要的数据被及时加载到MAC单元中,它是操作的数量。然而,大多数架构都无法及时获得激活和重量数据以避免阻塞。你真正想知道的是做有用工作的硬件的实际利用率。

此外,TOPS没有提到批量大小。然而,对于许多体系结构来说,Batch = 1时的吞吐量(这是数据中心之外的重要因素)远不及Batch = 10或28时吞吐量的一半。

像任何半导体一样,从最小电压到最大电压,性能和功率变化很大;从慢速硅到快速硅;从最低温度到最高温度。TOPS是典型的最优条件,而不是最坏的情况。

正确的答案是要求推理引擎供应商在他们的体系结构上为特定的模型(例如YOLOv3)、特定的图像大小、特定的批处理大小和特定的工艺/电压/温度条件提供吞吐量。这为您提供了应用程序真正需要了解的数据。

误解2:现有架构将成为最佳的推理加速器。

几十年来,计算一直被冯·诺伊曼架构所主导:一个中央处理单元(或者现在是多个)由一个单一的存储系统提供,这个存储系统已经发展成多层的片上缓存和一个或多个层的外部存储,通常是DRAM。

在传统的工作负载中,代码和数据的局部性意味着与DRAM相比,大多数内存引用都是由片上SRAM缓存以低延迟和低功耗提供的。然而,神经网络推理的工作量是非常不同的。

对于大量的内存引用,缓存是没有用的,这些内存引用是在连续矩阵乘法中使用的权值。例如,用于物体检测和识别的YOLOv3有超过100个阶段或层,使用了6200万个重量。

处理一幅图像需要将6200万个权重按顺序一层一层地引入,然后重新开始处理下一幅图像。要么所有的权重存储在芯片上,要么所有的权重需要从DRAM中不断重新加载。

因此,许多早期的推断加速器需要非常宽的DRAM总线,带宽为数百gb /s。然而,与SRAM相比,DRAM存储器的参考功率非常高。最好的推理架构可能会解决如何减少DRAM带宽和使用更多的片上SRAM带宽。

误解3:ResNet-50是比较推理加速器的好基准。

很少有公司为他们的推理架构提供任何基准测试信息,当他们这样做时,通常是ResNet-50。ResNet-50是一个对224 × 224像素的图像进行分类的图像分类模型。然而,如果你与任何设计神经推理引擎的人交谈,他们会告诉你,他们没有在应用中使用ResNet-50的计划。

Resnet的一个主要问题是Resnet -50吞吐量几乎总是没有提到批大小。提示:当供应商不提供批处理大小时,您可以假设这意味着他们使用大的批处理大小来获得最高的吞吐量。如果需要batch = 1,那么大的批处理大小不会告诉您应用程序的性能如何。

同样重要的是要记住224 × 224像素的图像是很小的。他们只有大多数客户计划使用的200万像素图像的1/40。

小图像意味着中间激活也很小。这意味着这个基准测试不会强调推理体系结构的内存系统。YOLOv3的中间激活比ResNet-50大50倍。ResNet-50只需要70亿次操作(1 MAC = 2 Ops),而YOLOv3需要>多100倍。

如果您的应用程序正在处理大型图像,并且需要对图像中的所有对象进行分类,那么您需要为您的供应商找到一个要求更高的基准。

误解4:一个体系结构将主导所有推理应用程序。

推理体系结构将随着时间在两个维度上进行区分。对于边缘应用程序,一个维度的批处理大小较小(4个或更少),而对于数据中心应用程序,另一个维度的批处理大小较大(10个或28个或更多)。

另一个维度是性能。在超过100K mac运行在1ghz以上的情况下,数据中心推断加速器的峰值性能往往会达到100+ TOPS。边缘服务器将达到10+ TOPS的峰值性能,边缘设备将达到1+ TOPS的峰值性能,而始终在线的应用程序将<<1 TOPS。这有两个原因:高端系统的热冷却比低端系统大得多,并且低端系统的预算较少。

结论

就像过去许多新技术的出现一样,人工智能和神经推理将遵循一条学习曲线,直到行业真正了解如何正确衡量它们。这意味着大多数供应商将继续抛出一些听起来不错但并不相关的无意义数字。

如果您发现自己正在研究神经推理引擎,那么请记住,真正重要的是推理引擎为模型、图像大小、批处理大小以及流程和PVT(流程/电压/温度)条件提供的吞吐量。这是衡量应用程序性能的首要标准。没有什么比这个更重要。

杰夫·塔特(Geoff Tate)是theFlex Logix技术有限公司

从我们的合作伙伴

制作精良的电气外壳的优点

优良的电气外壳的优点由:默里斯洛威克。图1:恶劣环境的户外工业机箱的GEOS线。苏……

协同处理器体系结构:一种用于快速成型的嵌入式系统体系结构

2021年7月6日
编者注:尽管它以数字处理性能和吞吐量而闻名,但协处理器体系结构提供了嵌入式系统…

推动绿色交通革命

卡尔-海因茨斯坦梅茨部门总经理汽车动力系统德州仪器。技术的进步进一步使汽车电动化,使新的效率…

实现5G和机器人的未来

2021年11月18日,

超高可靠性,低延迟

当你读这篇文章时,5G正在美国推广。有些人有一个兼容5G的手机,可以连接到AT&T网络,T-Mobile,等等。

适用于恶劣环境的外壳材料

适用于恶劣环境的外壳材料。金属外壳通常不适合高度恶劣的环境……

声音你的意见!

本网站要求您注册或登录后发表评论。
目前还没有任何评论。想开始对话吗?

从我们的合作伙伴

制作精良的电气外壳的优点

优良的电气外壳的优点由:默里斯洛威克。图1:恶劣环境的户外工业机箱的GEOS线。苏……

协同处理器体系结构:一种用于快速成型的嵌入式系统体系结构

编者注:尽管它以数字处理性能和吞吐量而闻名,但协处理器体系结构提供了嵌入式系统…

推动绿色交通革命

卡尔-海因茨斯坦梅茨部门总经理汽车动力系统德州仪器。技术的进步进一步使汽车电动化,使新的效率…

超高可靠性,低延迟

当你读这篇文章时,5G正在美国推广。有些人有一个兼容5G的手机,可以连接到AT&T网络,T-Mobile,等等。
1330724©Ian Poole | Dreamstime.com
Dreamstime L 1330724
Baidu