Googleは、先日Gemini Ultraを搭載した「Gemini Advanced」をリリースしたばかりだが、更にたたみかけるように、その大規模言語モデルを大幅にアップデートした「Gemini 1.5」を発表した。多くの特徴を備えているが、その中でも目を見張るのが、“桁違い”な程に巨大なコンテキストウィンドウだろう。
Googleによると、Gemini 1.5は新しいMoE(Mixture-of-Experts)アーキテクチャを採用し、学習とデプロイをより効率的にしているという。Google DeepMindのDemis Hassabis氏によれば、この最新世代の最初のモデルであるGemini 1.5 Proは、Gemini 1.0 Ultraに匹敵する性能を提供するが、必要な計算能力は少なくなり、より効率的に動作するとのことだ。
Gemini 1.5の最も画期的な点は、長いコンテキストウィンドウである。最初のリリースモデルであるGemini 1.5 Proには、128,000トークンの標準コンテキストウィンドウが搭載されているが、限られた開発者グループと企業顧客は、最大100万トークンを扱うことができるバージョンに早期にアクセスすることができるとのことだ。Googleによると、これによって巨大なデータ配列(例えば、1時間のビデオ、11時間のオーディオ、3万行以上のコードベース、70万語以上のドキュメント)を扱えるようになるという。OpenAIのGPT-4 Turboは128,000のトークン、AnthropicのClaude 2.1には200,000トークンのコンテキストウィンドウが搭載されていることを考えると、いかにそれが巨大な物であるかが分かるだろう。更にGoogleの研究では、最大1,000万個のトークンでこのモデルをテストし、大量の情報を効果的に管理する能力を実証しているとのことだ。
コンテキストウィンドウを拡大することは、大規模言語モデル(LLM)が一度に扱える情報量が増加することに繋がるが、GPT-4やClaude 2.1など、LLMの悩ましい問題として、”Lost in the Middle“現象が挙げられる。これは、長い文脈を理解出来るようになったというLLMが、しばしばその入力されたプロンプトの最初と最後にのみ注目し、途中(Middle)を無視してしまう現象のことだ。これにより、例え長いコンテキストウィンドウを搭載していても、性能が著しく低下してしまう事が明らかになっているが、Gemini 1.5 Proではこの驚くべきことに、一部でLost in the Middleに対処することに成功しているようだ。
同社は、”Needle In A Haystack”テストでは、Gemini 1.5 Proは、最大100万トークンのデータブロックの中から99%の確率でターゲットテキストを見つけ、Lost in the Middleに対処した事を報告している。また、ほぼ1日分の音声から隠れたキーワードを完璧な精度で見つけることができたとのことだ。更に、3時間のビデオ内のランダムなフレームから効果的に情報を取得することもできると、Googleは述べている。
Gemini 1.5 ProはGemini 1.0 Ultraに近づく
Gemini 1.5 Proのコア機能は、テキスト、コード、イメージ、ビデオ、オーディオの各モダリティにおける幅広いベンチマークに及んでいる。Googleは、Gemini 1.5 ProがGemini 1.0 Proに対して87.1%、Gemini 1.0 Ultraに対して54.8%の勝率を持つことを、31のベンチマークに基づいて示している。新モデルは、数学、科学、推論、多言語、ビデオ理解、コードを含む様々な領域で改善を示している。
開発者と企業顧客は、AI StudioとVertex AIを通じてGemini 1.5 Proの限定プレビューにアクセスできる。Googleは、テスト段階ではこのプレビューを無料で提供しているが、実験的な機能であるため、ユーザーは待ち時間が長くなることが予想される。Googleは将来的に、モデルのコンテキストウィンドウのサイズに基づいた価格設定を導入する予定である。
「1.5 Proの標準的な128,000トークンコンテキストウィンドウを導入する予定です。近日中に、標準的な128,000トークンのコンテキスト・ウィンドウから始まり、100万トークンまでスケールアップする価格階層を導入する予定です」と、Google DeepMindsのチーフ・サイエンティストであるJeff Dean氏は、述べている。
Sources
- Google The Keyword:
コメントを残す