Googleの新たなAIモデル「Gemini」はChatGPTより優れているのか?

The Conversation
投稿日 2023年12月16日 16:24
final keyword header.width 1600.format webp

Google DeepMindは最近、OpenAIのChatGPTに対抗する新しいAIモデル、「Gemini」を発表した。どちらのモデルも「生成AI」の一例であり、入力された学習情報のパターンを見つけて学習し、新しいデータ(画像、単語、その他のメディア)を生成するものだが、ChatGPTはテキストを生成することに焦点を当てた大規模言語モデル(LLM)である。

ChatGPTがGPTとして知られるニューラルネットワーク(膨大な量のテキストで学習)に基づいている会話用ウェブアプリであるのと同じように、GoogleにはLaMDAと呼ばれるモデル(対話で学習)に基づいていたBardという会話用ウェブアプリがある。しかしGoogleは現在、それをGeminiに基づいてアップグレードしている。

GeminiがLaMDAのような以前の生成AIモデルと異なる点は、「マルチモーダルモデル」であることだ。これは、複数の入出力モードで直接動作することを意味する。テキストの入出力をサポートするだけでなく、画像、音声、ビデオもサポートする。従って、新しい略語が生まれつつある:LLMと混同しないように。

OpenAIは9月、画像、音声、テキストも扱えるGPT-4Vというモデルを発表した。しかし、Geminiが約束するような完全なマルチモーダルモデルではない。

例えば、GPT-4Vを搭載したChatGPT-4は音声入力を扱うことができ、音声出力を生成することができるが、OpenAIはこれがWhisperと呼ばれる別のディープラーニングモデルを使って入力時に音声をテキストに変換することで行われていることを確認している。ChatGPT-4はまた、別のモデルを使って出力時にテキストを音声に変換しており、GPT-4V自体は純粋にテキストで動作していることになる。

同様に、ChatGPT-4は画像を生成することができるが、それはDall-E 3と呼ばれる別のディープラーニングモデルに渡されるテキストプロンプトを生成することによって行われる。

対照的に、GoogleはGeminiを「ネイティブ・マルチモーダル」に設計した。これは、コアモデルがさまざまな入力タイプ(音声、画像、動画、テキスト)を直接扱い、それらも直接出力できることを意味する。

評決

これら2つのアプローチの区別は学術的なものに見えるかもしれないが、重要なことである。Googleのテクニカルレポートとこれまでの他の定性的なテストから得られた一般的な結論は、Gemini 1.0 Proと呼ばれる現在公開されているGeminiのバージョンは、GPT-4ほど一般的には優れておらず、GPT 3.5に近い能力を持っているということだ。

Googleはまた、Gemini 1.0 Ultraと呼ばれるより強力なバージョンのGeminiを発表し、GPT-4よりも強力であることを示すいくつかの結果を示した。しかし、これを評価するのは難しい。第一の理由は、GoogleがUltraをまだリリースしていないため、現時点では結果を独自に検証できないことである。

Googleの主張を評価するのが難しい2つ目の理由は、GoogleがややGoogleのGemini“ハンズオン”ビデオは大幅な編集と演出が行われている事が判明からである。このビデオでは、Geminiモデルがライブビデオストリーム上でインタラクティブかつ流暢にコメントしている。

しかし、Bloombergが当初報じたように、ビデオの中のデモンストレーションはリアルタイムで行われたわけではない。例えば、Geminiがボールがどのカップの下にあるかを追跡する「3つのカップとボールのトリック」などである。そのために、入れ替わるカップの上に司会者の手がある一連の静止画像が提供されていた。

将来への期待

このような問題があるにもかかわらず、Geminiや大規模なマルチモーダルモデルは、生成AIにとって非常にエキサイティングな前進であると私は信じている。それは、その将来的な能力のためでもあり、AIツールの競争環境のためでもある。以前の記事で述べたように、GPT-4は約5,000億語で学習された。

ディープラーニング・モデルの性能は、一般的にモデルの複雑さと学習データ量の増加によって左右される。このため、言語モデル用の新しい学習データがほぼ出尽くした今、どのようにしてさらなる改善を達成できるのかという疑問が投げかけられている。しかし、マルチモーダル・モデルは、画像、音声、動画といった形で、膨大な量の新しい学習データを提供する。

GeminiのようなAIは、このようなデータをすべて直接学習させることができるため、今後さらに大きな能力を発揮することになるだろう。例えば、ビデオで訓練されたモデルは、「ナイーブ物理学」と呼ばれるものの洗練された内部表現を発達させると予想される。これは、因果関係、運動、重力、その他の物理現象について、人間や動物が持っている基本的な理解である。

私は、このことがAIの競争環境にとって何を意味するのかについても興奮している。過去1年間、多くの生成AIモデルが出現しているにもかかわらず、OpenAIのGPTモデルは、他のモデルが近づくことができないレベルの性能を示し、支配的だった。

GoogleのGeminiは、この分野を前進させる主要な競争相手の出現を示唆している。もちろん、OpenAIがGPT-5に取り組んでいることはほぼ確実であり、マルチモーダルにも対応し、驚くべき新機能を発揮することが期待される。

とはいえ、私はオープンソースで非商用的な、非常に大規模なマルチモーダルモデルの出現を切望している。

私は、Geminiの実装のいくつかの機能も気に入っている。例えば、GoogleはGemini Nanoと呼ばれる、より軽量で携帯電話上で直接実行可能なバージョンを発表した。

このような軽量モデルは、AIコンピューティングが環境に与える影響を軽減し、プライバシーの観点からも多くの利点がある。


本記事は、Michael G. Madden氏によって執筆され、The Conversationに掲載された記事「Google’s Gemini: is the new AI model really better than ChatGPT?」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。



この記事が面白かったら是非シェアをお願いします!


  • Apple iPhone 15 Pro lineup camera system 230912
    次の記事

    iPhone 17 Pro Maxは48MP望遠カメラを搭載しApple Vision Proと連動する設計を取り入れる可能性

    2023年12月17日 6:14
  • 前の記事

    OpenAIはGPT-2にGPT-4を監視させる方法から将来の超人的なAIの制御方法を探求している

    2023年12月16日 8:55
    26cf816a 212b 4ff7 be69 5acd9765dae5

スポンサーリンク


この記事を書いた人
The Conversation

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事