Google、桁違いのコンテキストウィンドウを備えた「Gemini 1.5」を発表 | TEXAL

Google、桁違いのコンテキストウィンドウを備えた「Gemini 1.5」を発表

masapoco

投稿日 2024年2月16日 5:48

テクノロジー

本記事は広告およびアフィリエイトプログラムによる収益を得ています。

Googleは、先日Gemini Ultraを搭載した「Gemini Advanced」をリリースしたばかりだが、更にたたみかけるように、その大規模言語モデルを大幅にアップデートした「Gemini 1.5」を発表した。多くの特徴を備えているが、その中でも目を見張るのが、“桁違い”な程に巨大なコンテキストウィンドウだろう。

Googleによると、Gemini 1.5は新しいMoE（Mixture-of-Experts）アーキテクチャを採用し、学習とデプロイをより効率的にしているという。Google DeepMindのDemis Hassabis氏によれば、この最新世代の最初のモデルであるGemini 1.5 Proは、Gemini 1.0 Ultraに匹敵する性能を提供するが、必要な計算能力は少なくなり、より効率的に動作するとのことだ。

Gemini 1.5の最も画期的な点は、長いコンテキストウィンドウである。最初のリリースモデルであるGemini 1.5 Proには、128,000トークンの標準コンテキストウィンドウが搭載されているが、限られた開発者グループと企業顧客は、最大100万トークンを扱うことができるバージョンに早期にアクセスすることができるとのことだ。Googleによると、これによって巨大なデータ配列（例えば、1時間のビデオ、11時間のオーディオ、3万行以上のコードベース、70万語以上のドキュメント）を扱えるようになるという。OpenAIのGPT-4 Turboは128,000のトークン、AnthropicのClaude 2.1には200,000トークンのコンテキストウィンドウが搭載されていることを考えると、いかにそれが巨大な物であるかが分かるだろう。更にGoogleの研究では、最大1,000万個のトークンでこのモデルをテストし、大量の情報を効果的に管理する能力を実証しているとのことだ。

コンテキストウィンドウを拡大することは、大規模言語モデル（LLM)が一度に扱える情報量が増加することに繋がるが、GPT-4やClaude 2.1など、LLMの悩ましい問題として、”Lost in the Middle“現象が挙げられる。これは、長い文脈を理解出来るようになったというLLMが、しばしばその入力されたプロンプトの最初と最後にのみ注目し、途中（Middle）を無視してしまう現象のことだ。これにより、例え長いコンテキストウィンドウを搭載していても、性能が著しく低下してしまう事が明らかになっているが、Gemini 1.5 Proではこの驚くべきことに、一部でLost in the Middleに対処することに成功しているようだ。

同社は、”Needle In A Haystack”テストでは、Gemini 1.5 Proは、最大100万トークンのデータブロックの中から99%の確率でターゲットテキストを見つけ、Lost in the Middleに対処した事を報告している。また、ほぼ1日分の音声から隠れたキーワードを完璧な精度で見つけることができたとのことだ。更に、3時間のビデオ内のランダムなフレームから効果的に情報を取得することもできると、Googleは述べている。

Gemini 1.5 ProはGemini 1.0 Ultraに近づく

Gemini 1.5 Proのコア機能は、テキスト、コード、イメージ、ビデオ、オーディオの各モダリティにおける幅広いベンチマークに及んでいる。Googleは、Gemini 1.5 ProがGemini 1.0 Proに対して87.1%、Gemini 1.0 Ultraに対して54.8%の勝率を持つことを、31のベンチマークに基づいて示している。新モデルは、数学、科学、推論、多言語、ビデオ理解、コードを含む様々な領域で改善を示している。

開発者と企業顧客は、AI StudioとVertex AIを通じてGemini 1.5 Proの限定プレビューにアクセスできる。Googleは、テスト段階ではこのプレビューを無料で提供しているが、実験的な機能であるため、ユーザーは待ち時間が長くなることが予想される。Googleは将来的に、モデルのコンテキストウィンドウのサイズに基づいた価格設定を導入する予定である。

「1.5 Proの標準的な128,000トークンコンテキストウィンドウを導入する予定です。近日中に、標準的な128,000トークンのコンテキスト・ウィンドウから始まり、100万トークンまでスケールアップする価格階層を導入する予定です」と、Google DeepMindsのチーフ・サイエンティストであるJeff Dean氏は、述べている。

Sources

Google The Keyword:
- Our next-generation model: Gemini 1.5
- Gemini 1.5 Pro technical report [PDF]

AI, Gemini, Google, 大規模言語モデル, 生成AI

この記事が面白かったら是非シェアをお願いします！

次の記事
OpenAIの動画生成AI「Sora」は驚くほど“まとも”な動画を生成する能力を見せてくれる
2024年2月16日 6:30

前の記事
AIツールは目もくらむような結果を生むが、本当に「知性」を持っているのか？
2024年2月15日 15:14

スポンサーリンク

この記事を書いた人

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

コメントを残すコメントをキャンセル

おすすめ記事

今読まれている記事