从机架的角度来看,新旧数据中心可能看起来很相似,但其内部发生了根本的变化。拥有数十个核的多核cpu现在已经成为标准,它们经常与gpu、fpga甚至自定义加速器并列使用。满足机器学习(ML)需求的热潮推动了对只使用cpu配置的迁移,尽管这只是部分原因。它还包括更好的开发和部署工具,并允许更容易地使用gpu和fpga的非ml应用程序,可以利用这些体系结构。
我们不应该忽视数据中心是如何反映在嵌入式领域的,尽管是在一个更小、更有针对性、更低功耗的解决方案中。嵌入式开发人员已经开始使用数据中心中常见的管理程序和虚拟机(VM)支持,以解决芯片系统(soc)日益复杂的问题。从自动驾驶汽车到过程控制系统,soc的应用领域无所不包。
数据中心的cpu
英特尔凭借其“至强”(Xeon)系列产品仍是数据中心的主力军,但AMD的EPYC正给英特尔带来一些激烈的竞争。这两种处理器系列都有针对嵌入式空间的版本。
AMD的EPYC“ROME”采用台积电的7纳米晶体管技术,使每个插座的性能翻倍,浮点性能翻四倍。Zen 2内核的架构改进包括改进的分支预测、更好的指令预取、优化的指令缓存和更大的操作缓存。浮点支持现在建立在256位数据的基础上。
EPYC还支持运行时安全内存加密(SME)和安全加密虚拟化(SEC)。使用SME, RAM中的数据在CPU内部进行加密和解密。数据在写入RAM之前是加密的。
SME为每个VM提供自己的加密密钥。这允许hypervisor管理加密的VM,而hypervisor不能直接访问VM中的数据。与SME一样,这种支持对操作系统和应用程序是透明的。
1.AMD的“ROME”EPYC由一个7纳米CPU簇(上)和一个14纳米I/O簇(下)组成,并与一个多模插入器连接在一起。
我提到更多的核心是重要的,这个EPYC芯片将有多达64个核心。这些实际上是由八个“芯片”组成的,每个芯片都有八个核心(图1).I/O支持采用14纳米技术。EPYC还拥有128个PCI Express (PCIe) Gen 4 lanes,外加8个DDR4内存通道供内核使用。
英特尔的Cascade Lake采用48核芯片,由一对24核芯片组成的多芯片封装,使用英特尔的超路径互联技术(UPI)连接在一起。其12个DDR4内存通道设计用于支持英特尔Optane DC持久内存的分级存储配置(图2).通过UPI连接的双芯片配置提供24个DDR4内存通道。这款至强系列的版本还将支持英特尔的Omni Path Fabric。Cascade Lake的当前版本使用的是PCIe Gen 3,但是PCIe Gen 4还在开发路线中。
2.英特尔的服务器存储结构包括Optane DC,即内存与DRAM一起连接到内存通道。
AVX-512,英特尔高级矢量扩展的512位版本,可能会成为许多开发者的决定因素。它将32位双精度浮点数封装在一个512位向量中,可以在一个时钟周期内处理。该系统包括一对融合倍增(FMA)单元。
AMD和英特尔都在调整他们的服务器支持,以解决AI和ML问题。英特尔的矢量神经网络指令(VNNI)是AVX-512支持的一部分,这只是一个例子。这些在嵌入式应用程序中可能特别重要,因为在这些应用程序中可能无法使用其他ML加速器。
手臂一直在帮助其合作伙伴进军数据中心领域,提供挑战入门级和中端平台的解决方案。该公司的7纳米“战神”Neoverse基础设施基于Cortex-A76架构,主要针对云和物联网解决方案。目前的挑战在于,AMD和英特尔已经成为包括高端解决方案在内的老牌厂商。
数据中心的gpu
虽然64个内核对于cpu来说已经很多了,但与GPU的内核数量相比就相形见绌了。诚然,GPU内核更简单,而且针对的是更特定的应用,但通用GPU (gpgpu)正变得更加灵活。像OpenCL这样的编程平台已经将gpgpu拉入编程主流,并且它们是AI/ML应用程序兴起的最初主力。他们仍然是云平台的首选培训平台。NVIDIA和AMD是高性能GPU的主要玩家,ARM、Imagination和Intel提供了CPU/GPU soc的集成产品。
英伟达在gpu领域占据了优势。它的16端口NVLink NVSwitch和拥有6个NVLink连接的特斯拉V100 gpu支持NVLink连接。这允许他们构建DGX2(图3)有12个NVSwitch芯片16个gpu就像一个单一的系统,就像一个cpu一样。拥有512gb HBM2高带宽内存,1.7 TB系统内存,32tb NVMe ssd硬盘;一对Intel Xeon处理器提供管理支持。DGX2是为多个DGX2可能并排驻留的数据中心设计的。
3.NVIDIA的DGX2结合了(1)16个特斯拉V100 GPU模块和(2)总共512gb的HBM2内存,使用了(3)打NVSwitch芯片。它还拥有(4)8个EDR InfiniBand或100 gb以太网端口,(5)一个PCIe交换机,(6)2个Intel Xeon白金处理器,(7)1.7 TB系统内存,(8)双10/25 gb以太网端口和(9)30 TB NVMe SSD存储。
特斯拉V100 GPU使用的Volta架构也在杰森AGX泽维尔.针对嵌入式应用,该单芯片解决方案集成了多个ARMv8内核和加速器,包括两个NVIDIA深度学习加速器(NVDLAs)。
AMD的Radeon Instinct MI60计算卡(图4)使用AMD的Infinity Fabric,它可以在一台服务器上连接两个由四个MI60图形处理器组成的GPU蜂巢。MI60还采用了7纳米技术,采用了AMD的Vega GPU架构,拥有64个计算单元和4096个流处理器。该芯片集成了32gb的HBM2内存和ECC。HBM2的带宽为1tb /s。x16 PCIe Gen 4接口支持ROCm Open Ecosystem。每块单板可输出59个INT8的top、29.5个FP16的TFLOPS、14.7个FP32的TFLOPS和7.4个FP64的TFLOPS。
4.AMD的Radeon Instinct MI60计算卡基于AMD的Vega GPU架构。
本能系列包括MI60、MI50、MI25和M8。M8是一个只有4gb内存的半长存储卡,它不需要计算单元来针对需要浮点加速的嵌入式应用程序。
像目前大多数gpgpu一样,英伟达的Volta和AMD的Vega也加入了深度学习支持。这通常包括处理8位整数(INT8)以及16位、32位和64位浮点数的能力。INT8支持通常用于神经网络训练和推理,而浮点数用于更常规的计算。
数据中心中的fpga
5.英特尔PSG Stratix 10采用了基于Hyperflex FPGA架构的Stratix 10 FPGA。
数据中心即将出现的最大变化之一是fpga的使用,如英特尔的PSG Stratix 10(图5)和Xilinx Alveo(图6).部分变化是由于硬件,但最大的变化是在软件。
6.Xilinx公司的Alveo U280可提供24.5个INT8 TOPS,有100万个lut。
PSG Stratix 10是英特尔可编程加速卡(PAC)系列的成员。它拥有一个拥有280万个逻辑单元的FPGA, 32gb的DDR4,使用4个内存通道,x16 PCIe Gen 3。Stratix 10 FPGA基于英特尔的Hyperflex FPGA架构,采用英特尔的14纳米三栅工艺。它有一对QSFP28网络接口插座。
Xilinx的alveso U280是带有16纳米Xilinx UltraScale FPGA的高端板。它拥有8gb的HBMS2内存和460 GB/s的带宽。提供x16 PCIe Gen 4接口,支持CCIX。CCIX是一种缓存一致协议它在PCIe硬件上与PCIe协议并行运行。
FPGA板已经有几十年的历史了,尽管大多数用于嵌入式应用。用于创建与FPGA一起工作的IP的工具已经有了显著的改进,甚至可以将为OpenCL等框架编写的软件直接转换为FPGA IP。嵌入式开发人员通常处理将该IP加载到FPGA上,并且它通常与应用软件紧密集成。
Xilinx和英特尔在应用程序和硬件之间增加了一个标准的系统软件层。这使得开发人员可以将FPGA更像一个带有标准API的黑盒。开发者可以构建或购买用于黑色的IP,让硬件更加独立于应用。
7.OPAE(开放可编程加速引擎)运行在FPGA接口管理器(FIM)之上,用于管理可编程加速卡(PACs)。
例如,英特尔的开放可编程加速引擎(OPAE)运行在FPGA接口管理器(FIM)之上,以管理其PAC FPGA(图7).该软件管理FPGA配置和数据在FPGA和应用程序之间的移动。只要IP适合系统可用的FPGA,就不需要考虑硬件配置。OPAE负责管理系统中fpga的使用,这些fpga可以随着新应用程序的启动而改变。
其他主要因素也在影响数据中心和嵌入式服务器,从持久内存技术到即将推出的PCIe Gen 5和CCIX。但那是另一篇文章。