GoogleのGemini“ハンズオン”ビデオは大幅な編集と演出が行われている事が判明

masapoco
投稿日 2023年12月9日 6:40
google gemini video

Googleが先日発表した新たな大規模言語モデル(LLM)である「Gemini」は、同時に公開されたビデオ「Hands-on with Gemini: Interacting with multimodal AI」で、AIモデルの印象的な音声対話とリアルタイムの視覚応答機能を披露しており、同社のLLMが新たな段階に到達したことを印象づける物だった。

だが、BloombergがGoogleの広報担当者に話を聞いたところ、ビデオはリアルタイムで録画されたものではないことが判明した。 Googleは動画の静止画と特定のテキストプロンプトを使って結果を出していた。Googleの広報担当者は、「ユーザーのナレーションはすべて、この後に続くGeminiの出力を生成するために使用された実際のプロンプトからの抜粋です」と述べた。

Geminiは有望ではあるが、Googleが公開したハンズオン動画はフェイクであるため、この新しいツールに対する期待は抑える必要があるだろう。Googleはデモと同時に、このビデオがどのように作られたかを示すブログ記事も公開しているが、これはAIの未来ではなく、Googleの巧妙さを示すことになりそうだ。

GoogleがGeminiのハンズオンビデオを偽造した理由

Bloombergによれば、このデモは少なからず誤解を招くものだという。まず、実際の出力はかなり遅い。ビデオには、応答がスピードアップされているという免責事項があるが、実際には処理速度以上のごまかしがそこにはある。そもそもGeminiはビデオを見ているわけではないのだ。我々が聞いている返答はすべて、AIにビデオの静止画を見せ、テキストプロンプトを与えた結果である。

ビデオでは、カップの中にボールを隠そうとしたり、アヒルの絵を描いたり、地図を使ったゲームをしたりと、ユーザーがさまざまなタスクをこなしている。映像中、Geminiはリアルタイムでナレーションを入れ、その場ですべてを把握する。しかし、ビデオではわからないのは、GoogleがGeminiのデモを作るためにテキストプロンプトを使い、コンテキストを提供していることだ。

Googleは、キャプチャしたコンテンツの静止画像フレームに基づいてGeminiにプロンプトを与えた。そして、テキストでAIモデルを促した。その後、ナレーションが加えられた。

実際、ビデオに映し出されたプロンプトは、Geminiに与えられたものですらない。ビデオでは、Geminiがテーブルの上に置かれた3つのカップを見て、ユーザーがゲームをしようとしていると即座に判断しているように見える。実際には、GoogleはGeminiにゲームのやり方を教えた。そして、非常に具体的な指示に従うGeminiの能力をテストした。そのような状況であっても、Geminiはそのタスクを完璧にこなせるわけではない。

「もちろん、Geminiが常にこの課題を正しくこなすとは限りません。時々、フェイク・アウトの技(空のカップを2つ交換する)につまづくようだが、それもうまくいくことがあります。しかし、このようなシンプルなプロンプトのおかげで、Geminiを素早くテストするのが本当に楽しくなります」とGoogleは説明している。

Google研究担当副社長でディープラーニングをリードするOriol Vinyals氏は、Xでこのビデオを擁護した。

「ビデオに登場するユーザープロンプトとアウトプットはすべて実際のもので、簡潔にするために短縮されている。このビデオは、Geminiで構築されたマルチモーダルなユーザー体験がどのようなものかを示している。開発者を鼓舞するために作りました」とVinyals氏は語っている。

Googleはビデオの中で、同社がどのようにコンテンツを作成したかを説明するブログ記事にリンクしている。そのブログ記事は、GoogleがGeminiにあのような反応をさせるためにいくつかのプロンプトや合図を使ったという事実を隠していない。とはいえ、これは動画の“ハンズオン”という言葉の意味が一体何を意味するのかという議論にも発展する物だろう。Googleは、Geminを使ったときの実際の体験を示す本物のハンズオンビデオを作成していないのだから。

Geminiの偽デモ、社内批判に直面

BloombergThe Informationの情報源によると、Googleの従業員はこのデモビデオについて社内で懸念と批判を表明しているという。あるGoogle社員は、ビデオではGeminiでいかに簡単に印象的な結果を出せるかという非現実的なイメージを描いていると述べた。

また、この演出されたデモは、社内でミームやジョークの題材となり、社員たちはビデオと実際のAIシステムとの食い違いを揶揄する画像やコメントを共有した。

デモビデオをめぐる論争にもかかわらず、Googleは、ビデオに映し出されたユーザーの入力と出力はすべて本物であり、たとえビデオがまだ存在しないリアルタイムの実装を示唆していたとしても、と主張している。

Google DeepMindの製品担当副社長Eli Collinsは、アヒルの絵を描くデモはまだ研究段階であり、Googleの製品の一部ではないとBloombergに語った。「私たちにとっては新しい時代です。私たちは研究の観点から新境地を開拓しています。これはV1だ。まだ始まったばかりです」。

Googleはまた、誤解を招くような方法でベンチマーク結果を公表した。それは、より複雑なプロンプト方式(CoT@32)を使用した有名な言語理解ベンチマークMMLUのトップスコアと、GPT-4(5ショット)を使用してOpenAIがテストした標準的なベンチマーク方式を比較したものだ。MMLUでGemini Ultraを使用した5ショットプロンプトメソッドを使用した場合、Googleの最大モデルはGPT-4よりも2.7%悪い結果となった。

Geminiは、CoT@32で最高のMMLU総合スコアを達成したが、この結果の表示方法には疑問が残る。これは、偽のリアルタイムビデオと同様に、GoogleがGeminiをGPT-4とほぼ同等ではなく、むしろ真実に近いGPT-4よりも優れていると表現するために、あらゆる手段を講じたことを示している。

GoogleがAIツールを見せびらかそうとした際に犯した不手際は、今回が初めてではない。2023年初頭のMicrosoftのChatGPTの発表を受けて、Googleは急遽Bardのデモを行った。このモデルはいくつかの顕著なミスを犯し、Googleの大きなAIデビューに水を差した。生成AIの基礎となるトランスフォーマーアルゴリズムの研究を含め、機械学習研究における長年のリーダーであるにもかかわらず、Googleは機械学習を誇大宣伝する方法を見つけられないでいる。


Sources



この記事が面白かったら是非シェアをお願いします!


  • tencent helix buro ole scheeren architecture office china news dezeen 2364 col 1
    次の記事

    Tencentの新たなグローバル本社「Tencent Helix」は、ねじれた4つタワーを特徴とする

    2023年12月9日 7:10
  • 前の記事

    自分自身の複製を無限に製造できるDNAナノマシンの開発に成功

    2023年12月8日 18:44
    88ddb93a16af9788648d7c2b06c66ab7

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事