看软件调优多重要：H100性能可达A100的8倍！

栏目：教育培训时间：2023-09-15

　　近日，英伟达官宣了一个新软件神器“TensorRT-LLM”，其提供LLM的优化能力，旨在推动AI推理性能的新性能极限。

　　H100性能可达A100的8倍

　　话不多少，先看成果。英伟达把这一神器的应用成果记录在了其自己的博客文章《NVIDIA TensorRT-LLM Supercharges Large Language Model Inference on NVIDIA H100 GPUs》中。

　　上图显示，在8月份进行的测试中，从运行普通TensorRT推理引擎的A100到运行相同TensorRT堆栈的H100，性能提升了4倍多一点。现在，基于TensorRT-LLM的优化，H100的性能现几乎相当于A100的8倍性能。顺便说一下，这个特殊的基准测试是GPT-J-6B使用可变长度I/O和CNN/DailyMail数据集完成的文本摘要。A100使用FP16数据分辨率，PyTorch工作在期望模式下，H100使用了FP8数据分辨率和被称为“in-flight”的批处理技术。

　　上图使用了Meta平台目前的最为高端的大模型: 700亿个参数的Llama-2 LLM，并使用相同的可变长度I/O和相同的CNN/DailyMail数据集处理文本摘要。在Llama 2上，与A100 GPU相比，TensorRT-LLM可以将H100推理性能提高4.6倍。

　　TensorRT-LLM软件优化能力体现在哪里

　　如今GAI大型语言模型由于其令人印象深刻的能力而变得更为流行，人工智能的研究范围在不断扩大。越来越多的行业正在探索其在业务上的落地。

　　作为当今主要的大模型硬件基础设施供应商的英伟达，其对探索人工智能新的性能突破，一直吊足了业界的胃口，例如对于明年是否可以交付的GH200。不过，当通过调整算法来从硬件中中获得更为好的性能，也是应是一种值得重视的做法。

　　英伟达超大规模和高性能计算副总裁Ian Buck曾表示:“LLM推理正变得越来越困难。，模型变得越来越复杂，随着它们变得越来越智能，它们也变得越来越大，这是很自然的，但随着它们的扩展超出了单个GPU的范围，必须在多个GPU上运行，这就成了一个问题。”

　　随着模型生态系统的迅速扩展，模型变得越来越大，功能也越来越多。这也意味着它们变得如此之大，以至于单个GPU无法容纳它们，必须将它们分开。开发人员和工程师必须手动将它们分开，或分割他们的工作负载并协调执行，以便实时获得响应。TensorRT-LLM通过“张量并行性”帮助解决了这个问题，它允许跨多个GPU进行大规模的高效推理。

　　除此之外，英伟达还在文章中介绍，单个模型可以同时用于各种看起来非常不同的任务。从聊天机器人中的简单问答响应到文档摘要或长代码块的生成，工作负载是高度动态的，输出的大小会变化几个数量级。这种多功能性可能会使批处理请求和有效地并行执行它们变得困难(这是服务神经网络的一种常见优化)，这可能导致一些请求比其他请求完成得早得多。为了管理这些动态负载，TensorRT-LLM包括一种称为in-flight批处理的优化调度技术。这利用了这样一个事实，即LLM的整个文本生成过程可以分解为模型上的多个执行迭代。

　　使用实时批处理，TensorRT-LLM运行时将立即从批处理中驱逐完成的序列，而不是等待整个批处理完成后再转到下一组请求。然后，当其他请求仍在运行时，它开始执行新的请求。in-flight的批处理和额外的内核级优化可以提高GPU使用率，并在H100 Tensor Core GPU上的实际LLM请求基准测试中将吞吐量最低提高一倍，有助于降低能源成本并最大限度地降低TCO。

　　TensorRT-LLM是一个在NVIDIA Tensor Core GPU上运行的开源库，可提高LLM推理性能的特性包括令牌流、在线批处理、页面关注和量化。该软件还适配处理诸多头部大模型，如Meta Llama 2, OpenAI GPT-4, Falcon, Mosaic MPT, BLOOM等。例如，MosaicML在之上无缝地添加了它需要的特定特性，并将它们集成到它们的推理服务中。它还集成了TensorRT深度学习编译器，优化的内核以及预处理和后处理工具。通过一个开源的模块化Python API提高了易用性和可扩展性，用于定义、优化和执行新的架构，并随着LLM的发展而增强，并且可以轻松定制。对于开发人员，一个突出的特点是，开发人员不需要深入了解c++或NVIDIA CUDA就可使用。

　　英伟达表示，LLM正在重塑数据中心和人工智能培训在公司财务报表中的体现方式。借助TensorRT-LLM，英伟达的目标是让企业能够开发复杂的生成式人工智能，而不会导致总拥有成本激增。

　　英伟达的TensorRT-LLM目前可供在开发人员计划中注册的人员提前使用。更广泛的发布预计将在未来几周内发布。

上一篇：四川50所学校入围急救教育试点学校名单
下一篇：搞科研殚精竭虑育桃李芬芳满园

看软件调优多重要：H100性能可达A100的8倍！

最近更新教育培训