Nvidia张量Rt 8推广网站

加速机器学习推理

2021年7月28日,
利用最新的GPGPU硬件,NVIDIA的TensorRT 8提供了显著的性能增强。

你将学习

  • TensorFlow和TensorRT有什么区别?
  • TensorRT 8有哪些性能改进?

英伟达刚刚发布了TensorRT 8,支持开源TensorFlow平台最初开发于谷歌(见图).TensorRT 8利用这些平台上的特性,为NVIDIA硬件编译和优化TensorFlow模型。例如,该公司的安培GPU支持一个名为精密稀疏


稀疏性是一种有助于减少编码值大小的技术。特别是,在机器学习模型中使用的权重可以从减小值的大小中受益。它们需要更少的空间,计算效率更高。诀窍是对翻译后的版本中包含的大部分值进行编码。同样,在值上使用的数学运算也需要考虑编码。

TensorRT 8提供了实质性的性能提升,包括与其他技术相比提高了精度。例如,量化感知训练(QAT)支持可以将准确性提高一倍。这个和其他的转换优化使TensorRT 8的许多模型的性能比它的老兄弟TensorRT 7提供的结果提高了一倍。

TensorRT 8只对像Ampere GPU这样的新硬件提供细粒度稀疏性支持。尽管如此,该系统仍然可以提高其他不支持硬件稀疏性的NVIDIA硬件的性能。不过,这种改善并没有那么显著。

另一方面,某些型号可以使用TensorRT8获得更好的性能。这包括来自变压器(BERT)的双向编码器表示。BERT是一种基于变压器的机器学习技术,用于自然语言预处理训练。有些系统的性能提高了两个数量级。因此,使用BERT-Large模型的分析只需要1.2 ms,允许对自然语言查询进行实时响应。

“人工智能模型的复杂性呈指数级增长,全球对使用人工智能的实时应用程序的需求也在激增。这使得企业必须部署最先进的推理解决方案,”NVIDIA开发项目副总裁Greg Estes说。最新版本的TensorRT引入了新的功能,使企业能够以前所未有的质量和响应能力向客户交付对话式人工智能应用。”

从我们的合作伙伴

博客:云之外的分布式分析

分析、AI和ML通常被实现为网络中的集中功能,通常位于云中。分配的趋势在增长。

协同处理器体系结构:一种用于快速成型的嵌入式系统体系结构

2021年7月6日
编者注:尽管它以数字处理性能和吞吐量而闻名,但协处理器体系结构提供了嵌入式系统…

欢迎来到边缘

随着嵌入式网络设备成本的下降——以树莓派为例——它们变得无处不在。但是,这一激增的隐藏成本……

同步整流器的控制和设计挑战

随着电信和移动技术的发展,智能手机、平板电脑和笔记本电脑成为人们日常生活中必不可少的一部分。

声音你的意见!

本网站要求您注册或登录后发表评论。
目前还没有任何评论。想开始对话吗?
49110602©Oliver Sved | Dreamstime.com
Pcb dreamtime L 49110602推广
Baidu