Googleが先日発表した新たな大規模言語モデル(LLM)である「Gemini」は、同時に公開されたビデオ「Hands-on with Gemini: Interacting with multimodal AI」で、AIモデルの印象的な音声対話とリアルタイムの視覚応答機能を披露しており、同社のLLMが新たな段階に到達したことを印象づける物だった。
だが、BloombergがGoogleの広報担当者に話を聞いたところ、ビデオはリアルタイムで録画されたものではないことが判明した。 Googleは動画の静止画と特定のテキストプロンプトを使って結果を出していた。Googleの広報担当者は、「ユーザーのナレーションはすべて、この後に続くGeminiの出力を生成するために使用された実際のプロンプトからの抜粋です」と述べた。
Geminiは有望ではあるが、Googleが公開したハンズオン動画はフェイクであるため、この新しいツールに対する期待は抑える必要があるだろう。Googleはデモと同時に、このビデオがどのように作られたかを示すブログ記事も公開しているが、これはAIの未来ではなく、Googleの巧妙さを示すことになりそうだ。
GoogleがGeminiのハンズオンビデオを偽造した理由
Bloombergによれば、このデモは少なからず誤解を招くものだという。まず、実際の出力はかなり遅い。ビデオには、応答がスピードアップされているという免責事項があるが、実際には処理速度以上のごまかしがそこにはある。そもそもGeminiはビデオを見ているわけではないのだ。我々が聞いている返答はすべて、AIにビデオの静止画を見せ、テキストプロンプトを与えた結果である。
ビデオでは、カップの中にボールを隠そうとしたり、アヒルの絵を描いたり、地図を使ったゲームをしたりと、ユーザーがさまざまなタスクをこなしている。映像中、Geminiはリアルタイムでナレーションを入れ、その場ですべてを把握する。しかし、ビデオではわからないのは、GoogleがGeminiのデモを作るためにテキストプロンプトを使い、コンテキストを提供していることだ。
Googleは、キャプチャしたコンテンツの静止画像フレームに基づいてGeminiにプロンプトを与えた。そして、テキストでAIモデルを促した。その後、ナレーションが加えられた。
実際、ビデオに映し出されたプロンプトは、Geminiに与えられたものですらない。ビデオでは、Geminiがテーブルの上に置かれた3つのカップを見て、ユーザーがゲームをしようとしていると即座に判断しているように見える。実際には、GoogleはGeminiにゲームのやり方を教えた。そして、非常に具体的な指示に従うGeminiの能力をテストした。そのような状況であっても、Geminiはそのタスクを完璧にこなせるわけではない。
「もちろん、Geminiが常にこの課題を正しくこなすとは限りません。時々、フェイク・アウトの技(空のカップを2つ交換する)につまづくようだが、それもうまくいくことがあります。しかし、このようなシンプルなプロンプトのおかげで、Geminiを素早くテストするのが本当に楽しくなります」とGoogleは説明している。
Google研究担当副社長でディープラーニングをリードするOriol Vinyals氏は、Xでこのビデオを擁護した。
「ビデオに登場するユーザープロンプトとアウトプットはすべて実際のもので、簡潔にするために短縮されている。このビデオは、Geminiで構築されたマルチモーダルなユーザー体験がどのようなものかを示している。開発者を鼓舞するために作りました」とVinyals氏は語っている。
Googleはビデオの中で、同社がどのようにコンテンツを作成したかを説明するブログ記事にリンクしている。そのブログ記事は、GoogleがGeminiにあのような反応をさせるためにいくつかのプロンプトや合図を使ったという事実を隠していない。とはいえ、これは動画の“ハンズオン”という言葉の意味が一体何を意味するのかという議論にも発展する物だろう。Googleは、Geminを使ったときの実際の体験を示す本物のハンズオンビデオを作成していないのだから。
Geminiの偽デモ、社内批判に直面
BloombergとThe Informationの情報源によると、Googleの従業員はこのデモビデオについて社内で懸念と批判を表明しているという。あるGoogle社員は、ビデオではGeminiでいかに簡単に印象的な結果を出せるかという非現実的なイメージを描いていると述べた。
また、この演出されたデモは、社内でミームやジョークの題材となり、社員たちはビデオと実際のAIシステムとの食い違いを揶揄する画像やコメントを共有した。
デモビデオをめぐる論争にもかかわらず、Googleは、ビデオに映し出されたユーザーの入力と出力はすべて本物であり、たとえビデオがまだ存在しないリアルタイムの実装を示唆していたとしても、と主張している。
Google DeepMindの製品担当副社長Eli Collinsは、アヒルの絵を描くデモはまだ研究段階であり、Googleの製品の一部ではないとBloombergに語った。「私たちにとっては新しい時代です。私たちは研究の観点から新境地を開拓しています。これはV1だ。まだ始まったばかりです」。
Googleはまた、誤解を招くような方法でベンチマーク結果を公表した。それは、より複雑なプロンプト方式(CoT@32)を使用した有名な言語理解ベンチマークMMLUのトップスコアと、GPT-4(5ショット)を使用してOpenAIがテストした標準的なベンチマーク方式を比較したものだ。MMLUでGemini Ultraを使用した5ショットプロンプトメソッドを使用した場合、Googleの最大モデルはGPT-4よりも2.7%悪い結果となった。
Geminiは、CoT@32で最高のMMLU総合スコアを達成したが、この結果の表示方法には疑問が残る。これは、偽のリアルタイムビデオと同様に、GoogleがGeminiをGPT-4とほぼ同等ではなく、むしろ真実に近いGPT-4よりも優れていると表現するために、あらゆる手段を講じたことを示している。
GoogleがAIツールを見せびらかそうとした際に犯した不手際は、今回が初めてではない。2023年初頭のMicrosoftのChatGPTの発表を受けて、Googleは急遽Bardのデモを行った。このモデルはいくつかの顕著なミスを犯し、Googleの大きなAIデビューに水を差した。生成AIの基礎となるトランスフォーマーアルゴリズムの研究を含め、機械学習研究における長年のリーダーであるにもかかわらず、Googleは機械学習を誇大宣伝する方法を見つけられないでいる。
Sources
- Bloomberg: Google’s Gemini Looks Remarkable, But It’s Still Behind OpenAI
- Google for Developers: How it’s Made: Interacting with Gemini through multimodal prompting
コメントを残す