NVIDIA、H100 GPUでLLM推論を8倍高速化する「TensorRT-LLM」を発表

NVIDIAは本日、GPU全体の大規模言語モデルに対する処理パフォーマンスを向上させる、新たなAIソフトウェア・スタック「TensorRT LLM」を発表した。同社によると、NVIDIA TensorRT-LLMを用いることで、Hopper AI GPUによる大規模言語モデルパフォーマンスが最大8倍向上させることも可能だという。

NVIDIAのTensorRT-LLMは、高度に最適化されたオープンソースライブラリとして発表され、HopperなどのNVIDIAのAI GPUで、すべてのラージ言語モデルで最速の推論性能を実現する。NVIDIAは、SmoothQuant、FlashAttention、fMHAといった最先端の技術を備えた最新のAIカーネルを活用することで、GPUを最適化するために、オープンソースコミュニティ内のすべてのLLMと協力してきた。オープンソースの基盤には、GPT-3（175B）、Llama Falcom（180B）、BloomなどのLLMのSOTA推論最適化バージョンが含まれている。

また、TensorRT-LLMは、Infinibandインターコネクトを備えた複数のNVLINKサーバ間で自動並列化を行うように最適化されている。これまでは、複数のサーバ/GPUにまたがる大規模な言語モデルを手動で割り当てる必要があったが、Tensor-RT LLMではそれが不要となる。

TensorRT-LLMがもたらす最大のアップデートの1つは、In-Flightバッチングと呼ばれる新しいスケジューラで、他のタスクとは独立してGPUに入ったり出たりすることが可能だ。これにより、同じGPUで大きな計算負荷のリクエストを処理しながら、複数の小さなクエリを動的に処理できるようになる。このプロセス全体がGPUをより効率的にし、H100のようなGPUのスループットを最大2倍という大幅な向上へと導く。

TensorRT-LLMスタックは、HopperのTransformerエンジンとそのFP8計算機能を中心に最適化されている。このライブラリは、自動FP8変換、カーネルフュージョン用のDLコンパイラ、混合精度オプティマイザを提供し、NVIDIA独自のSmoothquaintアルゴリズムのサポートにより、精度を損なうことなく8ビット量子化性能を実現する。

NVIDIAは、8月のA100とH100の性能、およびTensorRT-LLMを使用したH100の性能を比較している。GPT-J 6B（推論）では、H100はすでに4倍のパフォーマンス向上を提供しているが、TensorRT-LLMを使用することで、この特定のテストでは8倍の向上が見られるという。Llama2では、TensorRT LLMを使用することで最大5倍、TensorRT-LLMを使用しない標準的なH100と比較するとほぼ2倍の向上が見られるとのことだ。

8X Inference Performance — (Credit: NVIDIA)

4.6X Performance Llama2 — (Credit: NVIDIA)

NVIDIAは、TensorRT-LLMを使ってLLMを高速化するために、Meta、Grammarly、Deci、anyscaleなどのすべての主要な推論ワークロードと協力していると述べている。利用可能性に関しては、TensorRT-LLMは現在早期アクセスが可能で、来月にはフルリリースが予定されている。サポートに関しては、TensorRT-LLMは、A100、H100、L4、L40、L40S、HGX、Grace Hopperなど、現在生産中のすべてのNVIDIAデータセンター＆AI GPUでサポートされるとのことだ。

Databricks社のエンジニアリング担当副社長Naveen Rao氏は、TensorRT-LLMを「使いやすく、トークンのストリーミング、インフライトバッチング、ページアテンション、量子化などの機能が満載」と評価した。同氏は、TensorRT-LLMがNVIDIA GPU上のLLMに最先端の性能を提供し、最終的にはコスト削減によって顧客に利益をもたらすと強調した。

TensorRT-LLMにアクセスするには、開発者はNVIDIA Developer Programを通じて早期アクセスを申し込むことが可能だ。

Source

NVIDIA Developer Technical Blog: NVIDIA TensorRT-LLM Supercharges Large Language Model Inference on NVIDIA H100 GPUs

NVIDIA、H100 GPUでLLM推論を8倍高速化する「TensorRT-LLM」を発表

Google、Pixel Watch 2のデザイン紹介動画を公開

ヨタバイトの大容量を5000年間保存できるセラミック・ストレージ技術をドイツ企業が発表

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

NVIDIA、H100 GPUでLLM推論を8倍高速化する「TensorRT-LLM」を発表

Google、Pixel Watch 2のデザイン紹介動画を公開

ヨタバイトの大容量を5000年間保存できるセラミック・ストレージ技術をドイツ企業が発表

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル