NVIDIA的特斯拉V100(图1)现在可以使用32gb的高带宽内存(HBM2),是原来的两倍。这使得它能够处理更大的应用程序,同时比原始版本提高了50%的性能。这一最新版本将在Cray、惠普企业、IBM、联想、Supermicro和Tyan等公司的系统中提供。甲骨文云基础设施将在今年晚些时候推出。
1.NVIDIA的特斯拉V100有6个NVLink,现在可以通过公司的NVLink开关连接,它提供16个gpu之间的交叉连接。
以色列SAP创新中心副总裁Michael Kemelmakher表示:“我们为我们的SAP品牌影响力应用程序评估了DGX-1,该应用程序可以近乎实时地自动分析视频中的品牌曝光率。“额外的内存提高了我们在ResNet-152模型上处理高清晰度图像的能力,平均降低了40%的错误率。这就产生了精确、及时和可审计的大规模服务。”
在英伟达图形技术会议(GTC)上的另一个重大公告是关于其新的16端口NVLink NVSwitch交换机(图2).NVSwitch的带宽为2.4 TB/s。该交换机采用交叉架构,可扩展,多个交换机可以用来连接非常大的gpgpu集合。
特斯拉V100配备了6个高速NVLink端口,可以在一个更大的计算网络中将多个gpu连接在一起。内置连接允许gpu在不需要额外硬件的情况下连接到超立方体中,但这限制了可以直接连接的gpu的总数量。NVIDIA DGX1机架安装系统包含8个特斯拉V100 gpu,共28,672核。
2.NVSwitch在NVIDIA gpgpu之间提供16条高速、双向链路。
最新的DGX2通过使用多个NVLink开关芯片,集成了更多的gpu,以支持新的32gb特斯拉gpu。这允许所有16个gpu共享一个公共地址空间。这种组合可以提供超过2petaflops的性能。
NVIDIA更新了其深度学习和高性能计算堆栈,以利用特斯拉V100的开关和额外的内存。NVIDIA CUDA、TensorRT、NCCL和cuDNN都有新版本。
NVIDIA的系统被广泛应用于油气勘探数据分析和机器学习等领域。后者可以利用GPU的小流动点支持以及对架构的改进来支持深度神经网络训练。新硬件、连接性和改进的软件堆栈的结合,将是NVIDIA其他计划成功的关键,比如用于在世界模拟环境中测试自动驾驶汽车应用的DRIVE星座模拟系统。