AMD用3D缓存|电子设计将EPYC服务器cpu提升到另一个水平

在与英特尔的数据中心竞争中，AMD提高了一个新的EPYC系列cpu的门槛，该系列cpu使用其3D封装技术，使三层缓存的性能得到显著提升。

总部位于加利福尼亚州的圣克拉拉公司正在使用新阶级的EPYC CPU，代码为米兰X的数据中心在数据中心中升级，该技术使用其3D V-Cache Packaging技术。AMD表示V-Cache堆叠高达512 MB的额外高速缓存内存，在CPU之上，工作负载的性能升高超过50％，如计算流体动力学，结构分析和电子设计自动化。

该公司表示，微软还将在新的云计算服务中使用米兰-X。

AMD将凭借一款使用3D芯片封装的服务器处理器在市场上击败英特尔，并计划在2022年第一季度推出米兰- x cpu。英特尔正在依靠其先进的封装技术来帮助其重新夺回在数据中心和其他领域的领导地位，但它在最新的蓝宝石Rapids服务器cpu上没有使用3D foos技术，而是使用英特尔的2.5D芯片封装技术，称为EMIB。

在周一的加速数据中心(Accelerated Data Center)活动上，AMD推出了米兰- x和其他几款芯片，包括最新的服务器GPU，以挑战英伟达(Nvidia)。它还透露了未来“热那亚”服务器cpu的新细节。

AMD还表示，它已将Meta平台(前身为Facebook)作为其EPYC cpu的买家，巩固了其对英特尔的市场份额增长。对AMD来说，这场胜利意味着它的服务器芯片是由世界上最大的10家超大规模公司设计的数据中心，包括美国顶级云计算公司——aws、微软、谷歌、IBM、甲骨文——以及它们的中国同行:百度、阿里巴巴和腾讯。

对于首席执行官Lisa Su，赢得Microsoft和Meta等赢取客户一直是其周转计划的主要部分。由于英特尔努力移动到更先进的芯片生产蹒跚而持续竞争的能力近年来，AMD已经重新设计了其服务器处理器的阵容，可以为多达数千美元销售。它已经推出了匹配或击败Intel Xeons的服务器芯片在绩效基准上。

米兰- x处理器将具有与今年3月推出的EPYC 7003服务器芯片相同的功能和功能，EPYC 7003服务器芯片由台积电(TSMC)采用7纳米工艺制造，最多可配备64核。

EPYC cpu核心的“Zen 3”架构在时钟速度、延迟、缓存和内存带宽方面带来了改进。处理器被分解为多达8个计算模(也称为芯片或片)，每个芯片包含多达8个核。旗舰处理器有8个计算模，每个计算模上都有多达32 MB的共享L3缓存，总共有64个核和256 MB的L3缓存。L3缓存服务于芯片的中央存储库，在那里数据被CPU内核快速、重复地访问。

计算块与基于GlobalFoundries 14纳米节点的中央I/O块共同封装，该节点负责协调周围计算块之间的数据传输。I/O瓦支持高达3.2 GHz的8个DDR4通道和128个PCIe Gen 4通道。所有的模具都是用台积电的2.5D芯片封装技术组装在一个类似于非常紧凑的电路板(PCB)的基板上。

新的Milan-X CPU将配备64核，与现有的第三代EPYC CPU系列相同，而且通过BIOS升级，它们还将与现有的EPYC服务器平台“完全兼容”。

AMD表示V-Cache在当前第三代EPYC CPU中的每个计算磁贴上的32 MB上添加了另外64 MB的SRAM，每次计算米兰-X高达96 MB的L3缓存。V-Cache由TSMC在7-NM上制造，6毫米乘6毫米。最多八个Compute Die作为Milan-X的处理器架构的一部分，它在CPU中转化为高达768 MB的共享L3缓存。

“这额外的L3缓存缓解了内存带宽压力并减少了延迟，又迅速急剧加速，”苏说。

AMD表示，为客户打开门，以购买具有超过1.5 GB的L3缓存的双插座服务器。添加L2和L1缓存时，Milan-X处理器每套接会将总共804 MB缓存。

AMD使用台积电的SoIC 3D封装技术，将内存放置在计算模的顶部，通过连接模的通硅孔(TSVs)直接铜对铜键合，降低了互连的电阻。AMD表示，V-Cache在工作时不需要使用被称为微凸点的焊料覆盖的铜焊盘，这提高了功率效率、互连密度和信号传输，同时限制了散热。

AMD表示，台积电的SoIC技术将V-Cache中的互连芯片永久绑定到CPU上，缩短芯片之间的距离，从而实现2tb /s的通信带宽。因此，与第三代EPYC cpu使用的2D芯片封装相比，Milan-X cpu的每位能耗为1 / 3，互连密度为后者的200倍，其功率效率高达前者的3倍。

AMD此前已经公布了在个人电脑市场的锐龙处理器中使用V-Cache技术的计划。

虽然V-Cache从CPU的物理上进一步，而不是通过脊髓等计算瓦片的中间运行的L3缓存，但AMD表示性能损失是有限的。该公司表示，通过互连和留在堆叠的芯片中的延迟延迟，而不是离开CPU，在2.5D包中穿过I / O瓦，在系统中访问其他DRAM，然后返回CPU。

AMD表示，3D缓存对于人工智能等数据中心的各种工作负载都是一个福音，在这些数据中心中，让数据尽可能靠近处理器是有好处的。但是，米兰- x的突出之处在于计算工作量大，比如模拟一座桥梁的结构完整性，复制汽车测试碰撞的物理过程，以及模拟飞机机翼周围的气流。

AMD在米兰- x系列CPU上试图解决的另一个工作负载是半导体设计，因为V-Cache保证电子设计自动化(EDA)中使用的“关键数据”更靠近CPU核心。

即使是最熟练的工程师也不可能用手测试最终芯片设计中的每一个细节。芯片公司运行数千次模拟，以验证在制造最终的蓝图之前验证芯片设计中的性能。为了节省时间，它们同时运行模拟在同一CPU中的单独核心上。但是因为核心都遭到有限的记忆缓存和带宽，所以性能受到了打击。

但是使用V-Cache升级共享L3缓存的数量意味着AMD的Milan-X CPU可以保持更多信息，关闭CPU核心，减少了可以SAP eDA工作负载性能的延迟。

AMD表示，16核版本的Milan-X可以在Synopsys的VCS工具中进行半导体设计的验证运行，比没有3D V-Cache的第三代16核EPYC CPU快66%左右。AMD服务器业务高级副总裁兼总经理Dan McNamara说，Milan-X使芯片公司能够更快地测试设计，或同时进行更多测试，从而缩短产品上市时间。

微软表示，与竞争对手的云服务相比，基于Milan-X处理器的云服务在汽车碰撞测试建模方面的速度提高了50%，在航空航天工作负载方面的性能提高了80%。

AMD表示，它与EDA的许多主要参与者和其他系统设计工具合作，包括Altair，Ansys，Cadence，Siemens，Synopsys，等等，改善他们的软件在米兰-X上运行的方式。

数据中心齿轮的顶级制造商计划用里面的米兰-X推出服务器，包括HPE，戴尔，思科，超明和联想等。AMD表示，米兰-X芯片将在2022年第一季度提供。