c晶圆比较按2

Cerebras系统公司发布了业界首个万亿级晶体管芯片

2019年8月20日
史上最大的芯片——Cerebras晶圆规模引擎,以前所未有的计算密度改变了人工智能的格局。

洛斯拉图斯,CA -大脑系统8月19日,致力于加速人工智能(AI)计算的初创公司,发布了有史以来最大的芯片。为人工智能工作而优化的Cerebras晶圆规模引擎(WSE)是一个包含超过1.2万亿晶体管的单芯片,面积为46,225平方毫米。比世界上最大的图形处理器(815平方毫米,211亿个晶体管)大56.7倍1.WSE还包含3000倍的高速、片上内存,以及10000倍的内存带宽。

在人工智能领域,芯片尺寸非常重要。大芯片处理信息的速度更快,在更短的时间内给出答案。减少洞察的时间,或“训练时间”,允许研究人员测试更多的想法,使用更多的数据,并解决新的问题。谷歌、Facebook、OpenAI、腾讯、百度等许多公司都认为,当今人工智能的根本局限在于,训练模型的时间太长。减少培训时间消除了整个行业发展的一个主要瓶颈。

Cerebras公司创始人兼首席执行官Andrew Feldman表示:“Cerebras WSE是为人工智能工作而设计的,它包含了根本性的创新,通过解决数十年来限制芯片尺寸的技术挑战(如跨网连接、产量、功率传输和封装),提升了技术水平。”“每一个架构决策都是为了优化人工智能工作的性能。其结果是,根据工作负载的不同,Cerebras WSE的性能是现有解决方案的数百或数千倍,而耗电量和空间却很小。”

这些性能提升是通过加快神经网络培训的所有要素来实现的。神经网络是多级计算反馈循环。较快的输入通过循环移动,循环学习或“列车”越快。通过循环移动输入的方法是加速循环中的计算和通信。

专注于人工智能,Cerebras晶圆规模引擎加速了计算和通信,从而减少了训练时间。这种方法很简单,是WSE大小的函数:与最大的图形处理单元相比,WSE的硅面积是后者的56.7倍,因此WSE提供了更多的核来进行计算,以及更接近核的内存,因此核可以有效地运行。因为这个巨大的核阵列和内存都在一个芯片上,所有的通信都是在硅上进行的。这意味着WSE的低延迟通信带宽是巨大的,因此一组核心可以以最大的效率协作,内存带宽不再是瓶颈。

在脑外的46,225平方毫米芯片中的400,000 AI优化,无缓存,无架,计算核心和18千兆字节的本地,分布式,超级SRAM存储器作为内存层次结构的唯一级别。内存带宽为每秒9个PETABYTES。核心与细粒度,全硬件,片上网格连接的通信网络连接在一起,该通信网络每秒提供100个披物的总带宽。更多核心,更多的本地内存和低延迟高带宽结构,共同创建了加速AI工作的最佳架构。

“虽然人工智能只是在一般意义上使用,但没有两个数据集或人工智能任务是相同的。新的人工智能工作负载不断出现,数据集不断扩大。”“随着人工智能的发展,硅和平台解决方案也在发展。Cerebras WSE是半导体和平台设计领域的一项惊人工程成就,它在单个晶圆规模的解决方案中提供了超级计算机的计算、高性能内存和带宽。”

多年来,Cerebras一直与台积电紧密合作,台积电是世界上最大的半导体代工企业,也是先进工艺技术的领导者。台积电采用先进的16nm制程技术制造。

“台积电长期以来一直与行业创新者和领导者合作,制造性能领先的先进处理器。台积电运营高级副总裁JK Wang表示:“我们非常高兴与Cerebras Systems合作生产Cerebras晶圆规模引擎,这是晶圆规模发展的一个行业里程碑。”“台积电卓越的制造能力和对质量的严格关注,使我们能够满足严格的缺陷密度要求,以支持Cerebras创新设计的前所未有的模具尺寸。”

更多的核心;更接近核心的内存;更低延迟的通信带宽

WSE包含400,000个AI优化的计算核心。调用SLAC用于稀疏线性代数核心,计算核心是灵活的,可编程的,并针对构成所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性确保核心可以在不断变化的机器学习领域运行所有神经网络算法。

由于稀疏的线性代数核心针对神经网络计算原语进行了优化,因此它们实现了工业最佳利用 - 通常是图形处理单元的三倍或四倍。此外,WSE核心包括脑创建的稀疏收集技术,以加速稀疏工作量(包含零的工作负载)的计算性能,如深度学习。

零在深度学习计算中很普遍:通常,要相乘的向量和矩阵中的大多数元素都是零。然而,乘以零是在浪费硅、能量和时间。没有新的信息。

因为图形处理单元和张量处理单元是密集执行引擎——设计为永远不会遇到零的引擎,所以它们乘以每个元素,即使它是零。当50%到98%的数据为零时(这在深度学习中是经常发生的情况),大多数乘法都被浪费了。想象一下,当你试着快速向前跑时,你的大部分步伐都无法让你走向终点。大脑的稀疏线性代数核心从不与零相乘。所有的零数据都被过滤掉,可以在硬件中跳过。取而代之的是有用的工作。

内存

内存是每台计算机架构的关键组件。记忆较近计算转化为更快的计算,降低延迟和更好的数据移动功率效率。高性能深度学习需要频繁访问数据的大规模计算。这需要在计算核和内存之间靠近邻近。图形处理单元中的情况并非如此,绝大多数内存缓慢而且很远(片外)。

与历史上任何芯片相比,Cerebras晶圆规模引擎包含了更多的核心和更多的本地内存。这可以实现快速、灵活的计算,以更低的延迟和更少的能量。WSE的核心在一个时钟周期内可以访问18g的片上内存。WSE上的核心本地内存集合提供总计每秒9拍字节的内存带宽——这比领先的图形处理单元的片上内存多3,000倍,内存带宽多10,000倍。

通信结构

在WSE上使用的群通信结构,即处理器间通信结构,实现了突破性的带宽和低延迟,功耗仅为传统通信技术的一小部分。Swarm提供了一个低延迟、高带宽的2D网格,将WSE上的所有400,000个核连接起来,总带宽为100 petabits / s。Swarm支持单字活动消息,可以通过接收内核而不需要任何软件开销来处理这些消息。路由、可靠的消息传递和同步都是在硬件中处理的。消息自动激活每个到达消息的应用程序处理程序。

Swarm为每个神经网络提供了独特的、优化的通信路径。软件根据正在运行的特定用户定义神经网络的结构,配置通过40万个核连接处理器的最佳通信路径。

Swarm的业绩具有行业定义性。典型的消息以纳秒延迟通过一个硬件链路。通过Cerebras WSE的聚合带宽被测量为每秒100拍。不需要诸如TCP/IP和MPI之类的通信软件,因此可以避免性能损失。在这种架构中,通信的能量成本远远低于每比特1皮焦耳,这比图形处理单元低了近两个数量级。由于大量带宽和极低延迟的罕见组合,Swarm通信结构使大脑WSE比所有可用的替代解决方案学习得更快。


欲了解更多关于大脑系统和大脑WSE的信息,请访问www.cerebras.net

从我们的合作伙伴

智能电池充电和测试单元的好处

顶级提示:智能电池充电和测试单元|的好处赞助。由于电池护理理念和stra…

协同处理器体系结构:一种用于快速成型的嵌入式系统体系结构

7月6日,2021年
编辑器注 - 虽然众所周知,其数字处理性能和吞吐量,但协处理器架构提供嵌入式系统...

电动汽车电池管理中的有线与无线通信

威尔电池管理中有线与无线通信。泰勒VOGT应用工程师电池管理系统德州仪器。用电......

欢迎来到边缘

照片/图像学分(按显示顺序)。pinkeyes - stock.adobe.com, Monopoly919 - stock.adobe.com, proindustrial2 - stock.adobe.com。加入我们吧…

欢迎来到边缘

随着嵌入式网络设备成本的下降——以树莓派为例——它们变得无处不在。但是,这一激增的隐藏成本……

声音你的意见!

本网站要求您注册或登录后发表评论。
目前还没有任何评论。想开始对话吗?
2018beplay

Pi-in-the-Sky梦想

2022年1月3日
世界上最流行的单板机之一的树莓派电脑的简史。
61beplay体育

为什么高频pcb对电子制造业至关重要?

12月23日,2021年
随着电子技术的日益复杂和对更快信号传输速率的需求,高频pcb正成为开发高性能pcb的重要组成部分。
Baidu