大規模言語モデルにおける「コンテキストウィンドウの長さ」は何をもたらすのか?

masapoco
投稿日
2024年2月17日 9:17

Googleは、同社のAIチャットボットを改名し、新たに有料サブスクリプションプランを開始し、最も高性能なモデルである「Gemini Ultra」への一般ユーザーからのアクセスを開始したが、それから程なくして、今度は無料でアクセス出来る「Gemini Pro」モデルをアップデートした「Gemini 1.5 Pro」も発表した。この中規模な言語モデルは、速度と効率の大幅な向上に、現行で最上位のUltraモデルに匹敵する性能を示すとのことだが、それに加えて、革新的な点として、従来の大規模言語モデル(LLM)とは桁違いの「コンテキストウィンドウの長さ」をアピールしている。

今回、Google DeepMindは、このコンテキストウィンドウの長さがどのようにLLMの性能に関わってくるのかを含め、詳細に解説している。

コンテキストウィンドウとは

コンテキストウィンドウとは、モデルが一度に処理できるトークンの数を表す。これは、最小の構成要素であり、単語の一部、画像やビデオなどを含む物だ。

これは、人間で言う短期記憶のようなものだ。誰かと会話をする中で、直前の記憶を覚えておけなければ、まともな会話をこなすことも出来ないだろう。コンテキストウィンドウが長いという事は、一度に取り扱うことの出来る記憶が大きくなることを示す。これは一般的に、以下のようなメリットがあるとされている。

  1. 文脈理解の向上:長いコンテキストウィンドウを用いることで、モデルは予測を行う際により多くのテキストを考慮できるようになる。これにより、文や段落間の微妙な関係やニュアンスをより正確に理解し、より一貫性のある応答を生成することができる。
  2. 一貫性と連続性の強化:より広範なテキストをレビューできることで、これらのモデルは全体を通してより一貫性と連続性のあるコンテンツを生成できるようになり、より自然な読書または会話体験を提供できる。
  3. 複雑なタスクのより良い処理:長い文書や複雑なナラティブの理解、長文からの要約や質問応答、文書分析など、長い文脈を一度に処理する必要があるタスクは、長いコンテキストウィンドウから大きな利益を得ることができる。
  4. より複雑な推論のサポート:長いコンテキストは、モデルが複雑な推論を行い、遠く離れたテキスト間のパターンを検出し、接続を行うためのより広いキャンバスを提供する。これは、情報の深い理解と統合を要求するタスクにとって重要である。

現行のGemini 1.0は一度に最大32,000トークンを処理できたが、初期テストのためにリリースする1.5 Proは、最大1,000,000トークンのコンテキストウィンドウを備えている。これは、これまでに登場しているLLMの中でも圧倒的に最長のコンテキストウィンドウとなる。Google DeepMindは、研究の中で最大1,000万トークンまで成功裏にテストしたとしている。そして、コンテキストウィンドウが長ければ長いほど、モデルはより多くのテキスト、画像、オーディオ、コード、またはビデオを取り込んで処理できる。

「私たちの元々の計画は、コンテキスト内で128,000トークンを達成することでしたが、野心的な目標を設定するのが良いと思い、1,000,000トークンを提案しました。そして今、私たちは研究でそれを10倍も上回りました」と、長いコンテキストプロジェクトの研究リードの一人であるGoogle DeepMindの研究科学者Nikolay Savinov氏は述べている。

これにより、Gemini 1.5 Proが扱える生データは、モデルと関わりにおいて、従来とは全く異なる新たな側面を見せてくれる。たとえば、数十ページにわたる文書を要約する代わりに、数千ページにわたる文書を要約できるようになる。古いモデルが数千行のコードを分析するのを助けることができたところが、Gemini 1.5 Proは一度に数万行のコードを分析できるのだ。

とはいえ、コンテキストウィンドウが長くなると、以下のようなデメリットも生じる事が分かっている。

  1. 計算リソースの増加:長いコンテキストの処理には、より多くのメモリと計算能力が必要である。これにより、トレーニングと推論が遅くなり、コストが高くなる可能性があり、一部のユーザーやアプリケーションではアクセスが制限されることがある。
  2. 情報過多のリスク:十分なコンテキストを持つことと、多すぎるコンテキストを持つことの間には、バランスが必要である。関連性のない情報がモデルの焦点を薄めたり、混乱を引き起こしたりする可能性がある。最適なコンテキストウィンドウのサイズを見つけることは、特定のアプリケーションによって異なり、複雑な課題である。
  3. バイアスの増幅の可能性:より多くのテキストを扱うことで、トレーニングデータに存在するバイアスを取り込んで増幅するリスクが高まる。長いコンテキストウィンドウは、広範なデータセットに見られるステレオタイプやバイアスを強化する可能性があるモデルをより敏感にする。
  4. トレーニングとチューニングの課題:長いコンテキストウィンドウを持つモデルのトレーニングは本質的により困難である。メモリを効率的に管理し、長いシーケンスを通じてグラディエントシグナルが減衰せずに伝播できるようにするための洗練された技術が必要である。

Gemini Pro 1.5は、デフォルトでは128Kのコンテキストウィンドウを備えており、完全な1,000,000トークンのコンテキストウィンドウは、限定された開発者はエンタープライズ顧客にのみ解放されている。やはり1,000,000トークンを処理するには多くの計算資源が必要となるため、現在Google DeepMindでは遅延を改善するためのさらなる最適化が必要とみており、現在それに向けた作業を行っているようだ。

計算要求の増加、潜在的な情報過多、バイアスの増幅のリスク、およびトレーニングの複雑さという課題はありつつも、やはりそのメリットは大きな物だ。これらの要因のバランスを取ることは、効果的で効率的なAIシステムを開発するために重要ではある。

「私が最初にコンテキストに100万トークンがあるのを見たとき、私の最初の質問は、『これを何に使うの?』でした。しかし今、私は人々の想像力が広がっていると思いますし、彼らはこれらの新しい能力を使用して、より多くの創造的な方法を見つけるでしょう」と、Google DeepMindの研究者Machel Reid氏は述べている。


Source



この記事が面白かったら是非シェアをお願いします!


  • 次の記事

    OpenAIの新たな動画生成モデル「Sora」は世界シミュレーターに繋がるものかも知れない

    2024年2月17日 12:27
  • 前の記事

    NVIDIAのAI GPUのリードタイムが大幅に短縮、生産能力の拡大が要因か?

    2024年2月17日 8:03
    nvidia hq
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事