Google DeepMindは最近、OpenAIのChatGPTに対抗する新しいAIモデル、「Gemini」を発表した。どちらのモデルも「生成AI」の一例であり、入力された学習情報のパターンを見つけて学習し、新しいデータ(画像、単語、その他のメディア)を生成するものだが、ChatGPTはテキストを生成することに焦点を当てた大規模言語モデル(LLM)である。
ChatGPTがGPTとして知られるニューラルネットワーク(膨大な量のテキストで学習)に基づいている会話用ウェブアプリであるのと同じように、GoogleにはLaMDAと呼ばれるモデル(対話で学習)に基づいていたBardという会話用ウェブアプリがある。しかしGoogleは現在、それをGeminiに基づいてアップグレードしている。
GeminiがLaMDAのような以前の生成AIモデルと異なる点は、「マルチモーダルモデル」であることだ。これは、複数の入出力モードで直接動作することを意味する。テキストの入出力をサポートするだけでなく、画像、音声、ビデオもサポートする。従って、新しい略語が生まれつつある:LLMと混同しないように。
OpenAIは9月、画像、音声、テキストも扱えるGPT-4Vというモデルを発表した。しかし、Geminiが約束するような完全なマルチモーダルモデルではない。
例えば、GPT-4Vを搭載したChatGPT-4は音声入力を扱うことができ、音声出力を生成することができるが、OpenAIはこれがWhisperと呼ばれる別のディープラーニングモデルを使って入力時に音声をテキストに変換することで行われていることを確認している。ChatGPT-4はまた、別のモデルを使って出力時にテキストを音声に変換しており、GPT-4V自体は純粋にテキストで動作していることになる。
同様に、ChatGPT-4は画像を生成することができるが、それはDall-E 3と呼ばれる別のディープラーニングモデルに渡されるテキストプロンプトを生成することによって行われる。
対照的に、GoogleはGeminiを「ネイティブ・マルチモーダル」に設計した。これは、コアモデルがさまざまな入力タイプ(音声、画像、動画、テキスト)を直接扱い、それらも直接出力できることを意味する。
評決
これら2つのアプローチの区別は学術的なものに見えるかもしれないが、重要なことである。Googleのテクニカルレポートとこれまでの他の定性的なテストから得られた一般的な結論は、Gemini 1.0 Proと呼ばれる現在公開されているGeminiのバージョンは、GPT-4ほど一般的には優れておらず、GPT 3.5に近い能力を持っているということだ。
Googleはまた、Gemini 1.0 Ultraと呼ばれるより強力なバージョンのGeminiを発表し、GPT-4よりも強力であることを示すいくつかの結果を示した。しかし、これを評価するのは難しい。第一の理由は、GoogleがUltraをまだリリースしていないため、現時点では結果を独自に検証できないことである。
Googleの主張を評価するのが難しい2つ目の理由は、GoogleがややGoogleのGemini“ハンズオン”ビデオは大幅な編集と演出が行われている事が判明からである。このビデオでは、Geminiモデルがライブビデオストリーム上でインタラクティブかつ流暢にコメントしている。
しかし、Bloombergが当初報じたように、ビデオの中のデモンストレーションはリアルタイムで行われたわけではない。例えば、Geminiがボールがどのカップの下にあるかを追跡する「3つのカップとボールのトリック」などである。そのために、入れ替わるカップの上に司会者の手がある一連の静止画像が提供されていた。
将来への期待
このような問題があるにもかかわらず、Geminiや大規模なマルチモーダルモデルは、生成AIにとって非常にエキサイティングな前進であると私は信じている。それは、その将来的な能力のためでもあり、AIツールの競争環境のためでもある。以前の記事で述べたように、GPT-4は約5,000億語で学習された。
ディープラーニング・モデルの性能は、一般的にモデルの複雑さと学習データ量の増加によって左右される。このため、言語モデル用の新しい学習データがほぼ出尽くした今、どのようにしてさらなる改善を達成できるのかという疑問が投げかけられている。しかし、マルチモーダル・モデルは、画像、音声、動画といった形で、膨大な量の新しい学習データを提供する。
GeminiのようなAIは、このようなデータをすべて直接学習させることができるため、今後さらに大きな能力を発揮することになるだろう。例えば、ビデオで訓練されたモデルは、「ナイーブ物理学」と呼ばれるものの洗練された内部表現を発達させると予想される。これは、因果関係、運動、重力、その他の物理現象について、人間や動物が持っている基本的な理解である。
私は、このことがAIの競争環境にとって何を意味するのかについても興奮している。過去1年間、多くの生成AIモデルが出現しているにもかかわらず、OpenAIのGPTモデルは、他のモデルが近づくことができないレベルの性能を示し、支配的だった。
GoogleのGeminiは、この分野を前進させる主要な競争相手の出現を示唆している。もちろん、OpenAIがGPT-5に取り組んでいることはほぼ確実であり、マルチモーダルにも対応し、驚くべき新機能を発揮することが期待される。
とはいえ、私はオープンソースで非商用的な、非常に大規模なマルチモーダルモデルの出現を切望している。
私は、Geminiの実装のいくつかの機能も気に入っている。例えば、GoogleはGemini Nanoと呼ばれる、より軽量で携帯電話上で直接実行可能なバージョンを発表した。
このような軽量モデルは、AIコンピューティングが環境に与える影響を軽減し、プライバシーの観点からも多くの利点がある。
コメントを残す