人工智能871148930

人工智能的记忆:两个边缘和一个屋顶线

2021年3月12日,
在本系列的第三部分中,我们将研究Roofline模型作为评估AI架构的计算性能和内存带宽的方法。

本文是我们的一部分图书馆系列系统设计内存人工智能

你将学习:

  • 屋顶线模型是如何洞察人工智能建筑的计算性能的。
  • 这是确保AI应用程序在其处理器上以最高性能运行的最佳方式。

第2部分在这个系列中,我们研究了为了让AI变得更好而需要更多数据,以及世界上不断增加的数字数据所产生的良性循环。此外,我们还分析了即将到来的5G革命将如何将更多的处理推向边缘,以及行业如何从近边缘(更接近云)到远边缘(更接近端点)对网络进行微调。

我们希望看到从端点到网络核心的全方位人工智能解决方案,这将在很大程度上取决于所使用的内存。在近边缘领域,AI解决方案和存储系统将与今天的云数据中心类似。这些解决方案的内存系统将包括像HBM和GDDR这样的高带宽内存。远端AI内存解决方案将类似于部署在终端设备上的那些解决方案:片上内存、LPDDR和DDR。

通常,内存的选择取决于其潜在的应用程序和所需的带宽。在本文中,我们将探索Roofline模型如何帮助确定某些AI架构是否受到计算性能或内存带宽的限制。Roofline模型通过在y轴上绘制性能(每秒操作数)与x轴上的数据重用量(操作强度)之间的关系,揭示了应用程序在给定处理器体系结构上的执行情况。

操作强度

应用程序的操作强度度量每个数据块从内存系统引入后用于计算的次数。具有高操作强度的应用程序在从内存中检索数据后,会在计算中多次重用数据。这类应用程序对内存系统的要求较低,因为从外部内存中检索的数据较少,以保持计算管道的满。

相比之下,操作强度较低的应用程序需要从内存中检索更多的数据,并且需要更高的内存带宽来保持计算管道在峰值性能下运行。在低操作强度的系统中,性能常常会受到内存系统的限制。

车顶轮廓线模型

Roofline对于不同的处理器架构来说是独一无二的,它由两个不同的线段组成。水平线表示如果每个计算单元都在全速运行,处理器的峰值性能(见下文).另一方面,斜线描述了处理器架构受到内存带宽限制的情况。斜线表明,随着操作强度(重用)的增加,计算单元可以执行更多的工作,从而可能实现更高的性能。在内存带宽不足的情况下,计算单元必须等待内存系统的数据。

在构成屋顶线的两条线的交叉处是“山脊点”,它定义了维持最高性能的最低允许操作强度。这有助于我们理解如何对算法进行编程,以实现应用程序的峰值性能。实心绿色屋顶下面的区域代表了不同应用的潜在操作点。一些应用程序可能无法达到由Roofline定义的最高运行速度,因为代码效率低下,或者系统其他部分资源不足。

由于不同的峰值计算性能和处理器架构提供的内存系统带宽,每种处理器都有自己独特的Roofline模型。根据Roofline曲线绘制不同的应用程序,可以更好地理解应用程序在特定架构上的行为。

例如,我们可以看到应用程序是受处理器峰值性能的限制,还是受其内存带宽的限制。在数字,申请1号更靠近屋顶的斜坡部分。基于其操作强度,它更多地受到内存带宽的限制。


应用程序3位于曲线的平坦部分下面。这告诉我们,应用程序3更多地受到其处理器中可用计算资源的限制,而不是其他任何东西。提高计算资源的速度和/或添加更多的计算资源(例如,更多的加法器和乘法器)将是提高应用程序3性能的一种方法。

屋顶的水平部分和倾斜部分在2号申请附近相遇。这告诉我们,应用程序2部分受到内存带宽的限制,部分受到处理器计算资源的性能的限制。如果提供额外的计算资源和内存带宽,应用程序2可以看到性能的改善。

结论

通过使用Roofline模型,系统设计师能够更好地计划应用程序将如何在其处理器上执行,并确保它们在峰值性能上运行。理解目标应用程序的行为可以帮助设计人员更准确地评估系统中使用的内存类型,以实现性能目标,并相应地权衡功耗和成本等其他特性。

在人工智能的新时代,这些见解的重要性怎么强调都不为过。我们的下一篇文章将研究某些AI应用程序的Roofline模型,以及如何使用这些模型来分析运行在AI加速器上的机器学习应用程序。

阅读更多的文章图书馆系列系统设计内存人工智能

从我们的合作伙伴

博客:云之外的分布式分析

分析、AI和ML通常被实现为网络中的集中功能,通常位于云中。分配的趋势在增长。

你的科技指数是多少?

稍微看一下人工智能的技术图景——我们已经在哪里,我们在哪里,我们将走向哪里。然后与我们的合作伙伴Micr…

94%峰值效率,150W标准,240W峰值工业交流/直流电源与CC/CV参考设计

一个完全组装的板已开发用于测试和性能验证,并没有出售。下载准备使用的系统…

功率完整性表征信心

12位分辨率一直加上0.5%增益精度,确保了灵敏度测量的无与伦比的精度,如轨道坍塌表征…

发现集成电源的简单性和可扩展性

我们的可扩展双轨全集成pmic利用我们的领先电源技术,以更少的组件降低系统复杂性。建-…

协同处理器体系结构:一种用于快速成型的嵌入式系统体系结构

2021年7月6日
编者注:尽管它以数字处理性能和吞吐量而闻名,但协处理器体系结构提供了嵌入式系统…

声音你的意见!

本网站要求您注册或登录后发表评论。
目前还没有任何评论。想开始对话吗?

从我们的合作伙伴

博客:云之外的分布式分析

分析、AI和ML通常被实现为网络中的集中功能,通常位于云中。分配的趋势在增长。

你的科技指数是多少?

稍微看一下人工智能的技术图景——我们已经在哪里,我们在哪里,我们将走向哪里。然后与我们的合作伙伴Micr…

94%峰值效率,150W标准,240W峰值工业交流/直流电源与CC/CV参考设计

一个完全组装的板已开发用于测试和性能验证,并没有出售。下载准备使用的系统…

功率完整性表征信心

12位分辨率一直加上0.5%增益精度,确保了灵敏度测量的无与伦比的精度,如轨道坍塌表征…

发现集成电源的简单性和可扩展性

我们的可扩展双轨全集成pmic利用我们的领先电源技术,以更少的组件降低系统复杂性。建-…
142512531 /人工智能空间©Siarhei Yurchanka | dreamtime.com
空间Ai促销
Baidu