NVIDIA、コンシューマ向けRTX GPUでのAIパフォーマンスを向上しApple M2 Ultraの7倍高速な処理を実現

masapoco
投稿日
2023年10月18日 7:02
studio ai announcemenet blog kv oct2023 1280x680 1

生成AIの発展にNVIDIAの存在は欠かせない物だ。同社のGPUはMicrosoftやOpenAIなどがBing ChatやChatGPTなどのAIサービスを実行するために使用しているデータセンターでパワーを発揮している。そんなNVIDIAはAI/ML(人工知能/機械学習)およびLLM(大規模言語モデル)ツール群のさらなる改良に取り組んでおり、本日、NVIDIAは、ローカルのWindows PC上で大規模言語モデル(LLM)のパフォーマンスを高めるために設計された新しいソフトウェアツールを発表し、生成AI市場におけるその存在感を更に拡大している。

NVIDIAは、これまでデータセンター向けにリリースされていた「TensorRT-LLM」オープンソースライブラリが、Windows PCでも利用できるようになったことを発表した。大きな特徴は、NVIDIA GeForce RTX GPUを搭載したWindows PC上で、TensorRT-LLMによってLLMを最大4倍高速に実行できるとのことだ。

TensorRT-LLMがもたらす最大のアップデートの1つは、インフライト・バッチングと呼ばれる新しいスケジューラで、これは他のタスクとは独立してGPUに入ったり出たりすることができる。これにより、大きな計算集約的なリクエストを同じGPUで処理しながら、複数の小さなクエリを動的に処理できるようになるのだ。TensorRT-LLMは、最適化されたオープンソースのモデルを使用しており、バッチサイズが大きくなると、高速化が可能になる。本日より、これらの最適化されたオープンソースモデルが一般に公開され、developer.nvidia.comからダウンロードできるようになっている。

TensorRT-LLMモデルによるAIアクセラレーションは、チャット、文書やウェブコンテンツの要約、電子メールやブログの下書きなど、日常のさまざまな生産性向上タスクの推進に役立つ。

では、TensorRT-LLMはWindowsが動作するコンシューマーPCにどのように役立つのだろうか?NVIDIAが行ったデモでは、LLaMa-2のようなオープンソースの事前学習済みLLMモデルとTensorRT-LLMの比較が行われた。クエリがLLaMa-2に渡されると、LLaMa-2はウィキペディアのような大規模な一般化データセットから情報を収集するため、学習後の最新情報を持っておらず、学習していないドメイン固有のデータセットも持っていない。また、あなたの個人所有のデバイスやシステムに保存されているデータセットについても、もちろん知らないため、あなたが探している特定のデータを得ることはできない。

これを解決するためには2つのアプローチがある。1つは、LLMを特定のデータセットに最適化するファインチューニングだが、データセットの大きさによっては多くの時間がかかる。もう1つはRAG(Retrieval Augamanted Generation)と呼ばれるアプローチで、ローカライズされたライブラリーを使い、LLMに通過させたいデータセットを入力し、LLMの言語理解能力を活用して、そのデータセットからしか得られない情報を提供する。

ブログ記事では、TensorRT-LLMがどのように機能するかの例が示されている。標準的なLLaMa 2 LLMに対して、”NVIDIA ACEはどのように感情的な反応を生成するのか?”という質問を投げかけたが、正確な返答は得られなかった。

しかし、ローカルリポジトリにある30件のGeForceニュース記事からデータを供給されるTensorRT-LLMを使った別のモデルでは、問題なく必要な情報を提供することができた。つまり、TensorRT-LLMは適切な答えを提供し、またLLaMa-2モデルよりも高速にそれを行うことができる。さらに、NVIDIAは、TenosrRT-LLMを使用して、ほとんどすべてのモデルを高速化できることも確認した。これは、NVIDIA TensorRT-LLMがAIを活用してWindowsでより高速で生産性の高いPC体験を提供できる数多くのユースケースの1つに過ぎない。

さらにNVIDIAは、Stable Diffusionのパフォーマンスデモにおいて、GeForce RTX 4090がAutomatic 1111からWebUIを実行し、PyTorc xFormers実装を使用して1分間に27枚の画像を出力することを示している。

さらに、AppleのM2 Ultra(72コアモデル)とも性能を比較している。このシステムでは、CoreMLモデルを使用して1分間に7枚の画像しか出力できない。一方、同じ予算で2つのGeForce RTX 4090 GPUを搭載した非常にハイエンドなシステムを構築することができ、7倍の性能を発揮できることが示されている。

また、Tom’s Hardwareは、これを実際にテストし、Stable Diffusionのパフォーマンスが最大70%向上することを確認している。

NVIDIAはまた、本日の新しいGeForceドライバのアップデートで、AIベースの機能をいくつか追加した。これには、オンラインビデオを見る際に、より優れたアップスケーリングと圧縮効果の低減を実現するRTX Video Super Resolution機能の新しい1.5バージョンが含まれる。また、Stable Diffusion Web UI用にTensorRT AIアクセラレーションも追加され、GeForce RTX GPUを搭載した人々は、AIアートクリエーターから通常よりも速く画像を取得できるようになっている。


Source



この記事が面白かったら是非シェアをお願いします!


  • RTX VSR.png
    次の記事

    NVIDIA RTX Video Super Resolution1.5が利用可能に:すべてのRTX 20 GPUでサポートされ、ビジュアル品質が向上

    2023年10月18日 7:17
  • 前の記事

    Qualcomm、Androidウェアラブル向けRISC-Vチップの開発でGoogleとの提携を拡大

    2023年10月18日 6:25
    GooglexQualcomm

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • Apple M3 chip series architecture 231030

    AppleのM3 MaxチップからのUltraFusionインターコネクト削除は新たな巨大チップ登場の前兆か?

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • magsafe charger

    iOS 17.4のアップデートによりiPhone 12がQi2での高速ワイヤレス充電に対応へ

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

今読まれている記事