人工智能871148930

AI的记忆:两个边缘和一个屋顶线

2021年3月12日
在该系列的第三个安装中,我们将屋顶模型作为评估AI架构的计算性能和内存带宽进行评估。

这篇文章是我们的图书馆系列系统设计对于AI的记忆

你会学到什么:

  • Royline Model如何为AI架构的计算性能提供见解。
  • 确保人工智能应用程序在其处理器上以峰值性能运行的最佳方法。

第2部分在这个系列中,我们检查了需要更多数据来制作AI的需求创造的良性周期,以及世界上越来越多的数字数据量。此外,我们提供了对即将发生的5G革命将如何将更多处理推向优势的分析,以及行业如何将网络从近边(更靠近云)微调到远边(更接近端点)。

我们希望看到从端点到网络核心的全系列AI解决方案,它将通过使用的内存在很大程度上分化。近边将看到AI解决方案和存储器系统,其目前类似于云数据中心。这些解决方案的内存系统将包括HBM和GDDR等高带宽存储器。远边的AI Memory解决方案将类似于端点设备中部署的内存解决方案:片上存储器,LPDDR和DDR。

通常,记忆的选择取决于其潜在的应用和它所需的带宽。在本文中,我们将探讨Royline Model如何帮助确定某些AI架构是否受其计算性能或其内存带宽的限制。屋顶模型显示应用程序如何通过绘制Y轴上的性能(每秒)对X轴上的数据重用(操作强度)的量来绘制性能(每秒每秒)来对给定的处理器架构执行。

操作强度

应用程序的操作强度度量每个数据块从内存系统导入后用于计算的次数。具有高操作强度的应用程序在从内存中检索后在计算中多次重用数据。这类应用程序对内存系统的要求较少,因为需要从外部内存检索的数据较少,以保持计算管道满。

相比之下,具有低运行强度的应用需要从内存中检索更多的数据,并且需要更高的内存带宽以保持在峰值性能下运行的计算管道。在操作强度低的系统中,性能通常可以通过存储系统瓶颈。

屋顶模型

Roofline是单个处理器架构所独有的,由两个不同的线段组成。水平线表示在每个计算单元全速运行时处理器的峰值性能(见下文).另一方面,斜线描述处理器体系结构何时受到内存带宽的限制。斜线表明,随着操作强度(重用)的增加,计算单元可以执行更多的工作,从而有可能实现更高的性能。由于内存带宽不足,计算单元必须等待来自内存系统的数据。

在包括屋顶线的两条线的交叉点处是“脊点”,其定义了保持峰值性能的最低允许操作强度。这有助于我们了解如何编程算法以实现应用程序的峰值性能。固体绿色屋顶线下方的区域代表不同应用的潜在操作点。由于代码中的代码低效率,或系统的其他部分中的资源不足,某些应用程序可能无法达到由屋顶线定义的峰值操作速度。

由于处理器架构提供的峰值计算性能和内存系统带宽各不相同,每个处理器都有自己独特的Roofline模型。根据Roofline曲线绘制不同的应用程序可以让人们更好地理解应用程序在特定架构上的行为。

例如,我们可以看到应用程序更多地受到处理器的峰值性能还是其内存带宽的限制。在数字,申请号1较靠近屋顶轮廓线的倾斜部分。基于它的操作强度,它比其他任何东西都更受内存带宽的限制。


3号应用程序位于曲线平坦部分的下方。这告诉我们,应用程序3更多地受到其处理器中可用计算资源的限制。提高计算资源的速度和/或添加更多的计算资源(例如,更多的加法器和乘数器)将是提高应用程序3的性能的一种方法。

屋顶线的水平和倾斜部分在申请No.2附近。这告诉我们,应用No.2由存储器带宽部分限制,并且部分地受处理器的计算资源的性能。如果提供了额外的计算资源和内存带宽,则应用No.2可以看到性能改进。

结论

通过利用Royline模型,系统设计人员更能规划应用程序如何在其处理器上执行,并确保它们在峰值性能下运行。了解目标应用程序的行为有助于设计人员更准确地评估在其系统中使用的内存类型,以实现性能目标以及相应的电源和成本等其他特征的折应。

在人工智能的新时代,这些见解的重要性再怎么强调也不为过。我们的下一篇文章将研究某些AI应用程序的Roofline模型,以及如何使用这些模型来分析运行在AI加速器上的机器学习应用程序。

阅读更多文章图书馆系列系统设计对于AI的记忆

来自我们的合作伙伴

协同处理器架构:用于快速原型的嵌入式系统架构

2021年7月6日
编者注:虽然协处理器架构以其数字处理性能和吞吐量而闻名,但它提供了嵌入式系统…

Amphenol ICC负责您的电池管理系统

您的监控,控制和保护电池管理系统(BMS)系统的能力将确定您的车辆的性能和寿命。作为…

博客:超越云的分布式分析

分析、AI和ML通常作为网络中的集中功能实现,通常驻留在云中。分散……的趋势在增长。

如何使用ESP32微控制器及其ESP-IDF进行无线(OTA)更新

2021年8月10日,
物联网产品的设计者需要不断地评估平台和组件的选择,以降低成本和成本。

声音你的意见!

本网站要求您注册或登录以发表评论。
目前还没有任何评论。想开始谈话吗?

来自我们的合作伙伴

协同处理器架构:用于快速原型的嵌入式系统架构

编者注:虽然协处理器架构以其数字处理性能和吞吐量而闻名,但它提供了嵌入式系统…

Amphenol ICC负责您的电池管理系统

您的监控,控制和保护电池管理系统(BMS)系统的能力将确定您的车辆的性能和寿命。作为…

博客:超越云的分布式分析

分析、AI和ML通常作为网络中的集中功能实现,通常驻留在云中。分散……的趋势在增长。

如何使用ESP32微控制器及其ESP-IDF进行无线(OTA)更新

物联网产品的设计者需要不断地评估平台和组件的选择,以降低成本和成本。
Baidu