NVIDIA、H100 GPUでLLM推論を8倍高速化する「TensorRT-LLM」を発表

masapoco
投稿日 2023年9月9日 14:22
inference visual tensor rt llm

NVIDIAは本日、GPU全体の大規模言語モデルに対する処理パフォーマンスを向上させる、新たなAIソフトウェア・スタック「TensorRT LLM」を発表した。同社によると、NVIDIA TensorRT-LLMを用いることで、Hopper AI GPUによる大規模言語モデルパフォーマンスが最大8倍向上させることも可能だという。

NVIDIAのTensorRT-LLMは、高度に最適化されたオープンソースライブラリとして発表され、HopperなどのNVIDIAのAI GPUで、すべてのラージ言語モデルで最速の推論性能を実現する。NVIDIAは、SmoothQuant、FlashAttention、fMHAといった最先端の技術を備えた最新のAIカーネルを活用することで、GPUを最適化するために、オープンソースコミュニティ内のすべてのLLMと協力してきた。オープンソースの基盤には、GPT-3(175B)、Llama Falcom(180B)、BloomなどのLLMのSOTA推論最適化バージョンが含まれている。

また、TensorRT-LLMは、Infinibandインターコネクトを備えた複数のNVLINKサーバ間で自動並列化を行うように最適化されている。これまでは、複数のサーバ/GPUにまたがる大規模な言語モデルを手動で割り当てる必要があったが、Tensor-RT LLMではそれが不要となる。

TensorRT-LLMがもたらす最大のアップデートの1つは、In-Flightバッチングと呼ばれる新しいスケジューラで、他のタスクとは独立してGPUに入ったり出たりすることが可能だ。これにより、同じGPUで大きな計算負荷のリクエストを処理しながら、複数の小さなクエリを動的に処理できるようになる。このプロセス全体がGPUをより効率的にし、H100のようなGPUのスループットを最大2倍という大幅な向上へと導く。

TensorRT-LLMスタックは、HopperのTransformerエンジンとそのFP8計算機能を中心に最適化されている。このライブラリは、自動FP8変換、カーネルフュージョン用のDLコンパイラ、混合精度オプティマイザを提供し、NVIDIA独自のSmoothquaintアルゴリズムのサポートにより、精度を損なうことなく8ビット量子化性能を実現する。

NVIDIAは、8月のA100とH100の性能、およびTensorRT-LLMを使用したH100の性能を比較している。GPT-J 6B(推論)では、H100はすでに4倍のパフォーマンス向上を提供しているが、TensorRT-LLMを使用することで、この特定のテストでは8倍の向上が見られるという。Llama2では、TensorRT LLMを使用することで最大5倍、TensorRT-LLMを使用しない標準的なH100と比較するとほぼ2倍の向上が見られるとのことだ。

NVIDIAは、TensorRT-LLMを使ってLLMを高速化するために、Meta、Grammarly、Deci、anyscaleなどのすべての主要な推論ワークロードと協力していると述べている。利用可能性に関しては、TensorRT-LLMは現在早期アクセスが可能で、来月にはフルリリースが予定されている。サポートに関しては、TensorRT-LLMは、A100、H100、L4、L40、L40S、HGX、Grace Hopperなど、現在生産中のすべてのNVIDIAデータセンター&AI GPUでサポートされるとのことだ。

Databricks社のエンジニアリング担当副社長Naveen Rao氏は、TensorRT-LLMを「使いやすく、トークンのストリーミング、インフライトバッチング、ページアテンション、量子化などの機能が満載」と評価した。同氏は、TensorRT-LLMがNVIDIA GPU上のLLMに最先端の性能を提供し、最終的にはコスト削減によって顧客に利益をもたらすと強調した。

TensorRT-LLMにアクセスするには、開発者はNVIDIA Developer Programを通じて早期アクセスを申し込むことが可能だ。


Source



この記事が面白かったら是非シェアをお願いします!


  • pixel watch 2 design
    次の記事

    Google、Pixel Watch 2のデザイン紹介動画を公開

    2023年9月9日 14:42
  • 前の記事

    ヨタバイトの大容量を5000年間保存できるセラミック・ストレージ技術をドイツ企業が発表

    2023年9月9日 12:39
    4f5fd80820ad1db49e68b7193b18d329

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事