你将学习
- TensorFlow和TensorRT有什么区别?
- TensorRT 8有哪些性能改进?
英伟达刚刚发布了TensorRT 8,支持开源TensorFlow平台最初开发于谷歌(见图).TensorRT 8利用这些平台上的特性,为NVIDIA硬件编译和优化TensorFlow模型。例如,该公司的安培GPU支持一个名为精密稀疏.
稀疏性是一种有助于减少编码值大小的技术。特别是,在机器学习模型中使用的权重可以从减小值的大小中受益。它们需要更少的空间,计算效率更高。诀窍是对翻译后的版本中包含的大部分值进行编码。同样,在值上使用的数学运算也需要考虑编码。
TensorRT 8提供了实质性的性能提升,包括与其他技术相比提高了精度。例如,量化感知训练(QAT)支持可以将准确性提高一倍。这个和其他的转换优化使TensorRT 8的许多模型的性能比它的老兄弟TensorRT 7提供的结果提高了一倍。
TensorRT 8只对像Ampere GPU这样的新硬件提供细粒度稀疏性支持。尽管如此,该系统仍然可以提高其他不支持硬件稀疏性的NVIDIA硬件的性能。不过,这种改善并没有那么显著。
另一方面,某些型号可以使用TensorRT8获得更好的性能。这包括来自变压器(BERT)的双向编码器表示。BERT是一种基于变压器的机器学习技术,用于自然语言预处理训练。有些系统的性能提高了两个数量级。因此,使用BERT-Large模型的分析只需要1.2 ms,允许对自然语言查询进行实时响应。
“人工智能模型的复杂性呈指数级增长,全球对使用人工智能的实时应用程序的需求也在激增。这使得企业必须部署最先进的推理解决方案,”NVIDIA开发项目副总裁Greg Estes说。最新版本的TensorRT引入了新的功能,使企业能够以前所未有的质量和响应能力向客户交付对话式人工智能应用。”