Kontakt5956 | Dreamstime.com
人工智能芯片推广

当为AI选择内存时,你必须明智地选择

2021年9月3日
人工智能对存储的要求很高,因此选择正确的存储架构成为设计过程中的关键一步。

本文是我们的一部分图书馆系列系统设计内存人工智能

你将学习:

  • 片上内存的好处。
  • 处理片上内存的容量问题。
  • HBM vs. GDDR:确定最佳选择。

在本系列的第3部分中,我们探讨了Roofline模型如何帮助确定某些AI架构是否受到其计算性能或内存带宽的限制。利用这些数据,设计人员可以做出明智的决定,确定哪种类型的内存系统最适合特定的应用程序。

各种各样的通用内存系统正被用于高性能的人工智能应用,每一种都有其独特的优点和挑战。最重要的是,选择“正确的”解决方案取决于应用程序和您的用例。

片上内存:一切业务

片上内存是目前带宽最高、最节能的解决方案。它可以提供每秒数十兆兆字节的内存带宽,现代网线大小的处理器可以达到几百兆字节的容量。此外,数据需要在片上存储器和计算单元之间的短距离传输,极大地降低了访问延迟,并进一步提高了功率效率。

片上内存的低延迟和高带宽特性允许极高的计算引擎利用率,使其非常适合高性能、低功耗的应用程序,特别是在手持和电池驱动设备中处理时。

虽然片上存储器的性能和功率效率是无与伦比的,但主要的缺点是容量有限。片内存储器的存储容量远远低于外部DRAM解决方案,目前使用多个DRAM时可以达到数十gb。

出现了许多有趣的创新,它们更好地利用了片上存储器有限的容量,包括减少精度数据类型和重新计算中间结果以避免占用片上存储器。然而,训练集和模型规模的巨大增长继续超过这些创新,导致芯片上的内存更适合人工智能推理任务,而不是人工智能训练任务。

由于这些权衡,当在适合内存容量的较小神经网络上运行推理任务时,或者当在多个芯片可以一起工作以提供解决方案的环境中进行推理时,片上内存是一个很好的解决方案。如果不是这样,最好采用其他外部内存选项,如高带宽内存(HBM)和图形双数据速率(GDDR)。

HBM:复杂的权力

HBM是最新的高容量DRAM解决方案,在AI解决方案中得到了迅速的应用。HBM在设备内部使用堆叠实现高容量,以及一个非常宽的接口(1024条数据线)运行在一个相对较低的数据速率(HBM2每秒2千兆),以实现非常高的带宽和良好的信号完整性。堆叠的独特组合以及宽而慢的接口使HBM内存在保持良好的功率效率的同时实现极高的性能。随着片上存储器容量的增加,HBM为外部存储器解决方案提供了带宽和功率效率的最佳组合。

HBM架构带来的面积和功率优势需要额外的设计和制造成本。大量的I/ o需要一个精细的间距,这就需要使用额外的硅插入器、衬底,以及在DRAM内部和系统组件之间复杂的堆叠,在组装到PCB之前增加了额外的成本和复杂性。保持硅的低温和解决与堆叠相关的系统工程挑战为实现HBM2解决方案增加了更多的挑战。

然而,对于具有实现HBM内存系统的工程技能,并且有能力分摊增加的成本的组织来说,HBM2可以是需要外部内存解决方案的系统的一个很好的选择。

GDDR6:全能型选手

为20年前为图形行业创建,GDDR在片上内存和HBM DRAM提供的带宽,功率效率,成本和可靠性之间提供了良好的中间地面。GDDR利用了更熟悉的高批量制造和装配技术,如DDR等传统DRAM,使其成为平衡性能和复杂性的良好解决方案。

与HBM dram(实现大量的数据线,以中等数据速率运行)相比,GDDR6 dram采用相反的方法,拥有32条数据线,以16gb /s的速度运行,这是HBM2 dram的8倍。数据连接的数量越少,就不需要额外的组件,比如插入器。然而,在更高的数据速率下运行会带来信号完整性和能效方面的挑战。

这些问题可以通过精心设计的phy、包和板来解决。此外,GDDR DRAM器件不使用堆叠,进一步简化了制造工艺,降低了成本。因此,GDDR提供了性价比高的解决方案,实现了良好的性能、节能和成本。

HBM2和GDDR6之间选择的SoC考虑

在设计使用GDDR或HBM的处理器时,必须考虑一些重要的权衡。除了上述两个dram之间的差异之外,处理器在如何连接这些dram方面也存在其他差异。

最重要的差异是与SOC上的PHY电路相关的差异,将其连接到DRAMS上。对于提供256 GB / s的内存带宽,GDDR6物理的等效GDDR6和HBM2存储系统,与提供相同性能的HBM2 PHY电路相比,SOC上区域的1.5%和1.75倍。

在功率方面,差异更加明显:在相同带宽下,GDDR6 PHY消耗的功率是HBM2 PHY的3.5到4.5倍。从SoC设计者的角度来看,这种功率和面积上的巨大差异有利于HBM2内存系统。然而,HBM2内存系统增加的成本和实现复杂性可以使GDDR6成为一个更有吸引力的选择。

选择HBM2还是GDDR6最终取决于当前系统中最重要的内容。如果您准备好处理HBM2实现的成本和工程复杂性,那么这是最好的选择。但对于优先考虑成本和更主流的制造方法的系统,GDDR6是一个优秀的解决方案。在为您的应用程序选择高带宽内存解决方案时,没有错误的答案。

片上和外部存储器解决方案都提供高带宽和低延迟,以满足当今最密集应用的需求。做出明智的选择,你的努力会得到回报。

阅读更多的文章图书馆系列系统设计内存人工智能

从我们的合作伙伴

低电磁干扰:降低系统成本,通过减少排放快速达到电磁干扰标准

作为您在电源管理方面的合作伙伴,我们不断地追求推动电源的极限:开发新的工艺、封装和电路设计……

协同处理器体系结构:一种用于快速成型的嵌入式系统体系结构

2021年7月6日
编者注:尽管它以数字处理性能和吞吐量而闻名,但协处理器体系结构提供了嵌入式系统…

博客:云之外的分布式分析

Analytics,AI和ML通常在网络中实现为集中函数,通常驻留在云中。分布有一个不断增长的趋势......

发现集成电源的简单性和可扩展性

我们的可扩展双轨全集成pmic利用我们的领先电源技术,以更少的组件降低系统复杂性。建-…

同步整流器的控制和设计挑战

随着电信和移动技术的发展,智能手机、平板电脑和笔记本电脑成为人们日常生活中必不可少的一部分。

3M热管理材料手册

“热管理解决方案。为汽车和Mil/Aero”。在更小的pa中需要更多数量和更高性能的电子元件。

声音你的意见!

本网站要求您注册或登录后发表评论。
目前还没有任何评论。想开始对话吗?

从我们的合作伙伴

低电磁干扰:降低系统成本,通过减少排放快速达到电磁干扰标准

作为您在电源管理方面的合作伙伴,我们不断地追求推动电源的极限:开发新的工艺、封装和电路设计……

协同处理器体系结构:一种用于快速成型的嵌入式系统体系结构

编者注:尽管它以数字处理性能和吞吐量而闻名,但协处理器体系结构提供了嵌入式系统…

博客:云之外的分布式分析

Analytics,AI和ML通常在网络中实现为集中函数,通常驻留在云中。分布有一个不断增长的趋势......

发现集成电源的简单性和可扩展性

我们的可扩展双轨全集成pmic利用我们的领先电源技术,以更少的组件降低系统复杂性。建-…

同步整流器的控制和设计挑战

随着电信和移动技术的发展,智能手机、平板电脑和笔记本电脑成为人们日常生活中必不可少的一部分。
142512531 /人工智能空间©Siarhei Yurchanka | dreamtime.com
空间Ai促销
Baidu