Googleの新たなAIモデル「Gemini」はChatGPTより優れているのか？ | TEXAL

Googleの新たなAIモデル「Gemini」はChatGPTより優れているのか？

The Conversation

投稿日

2023年12月16日 16:24

テクノロジー

本記事は広告およびアフィリエイトプログラムによる収益を得ています。

Google DeepMindは最近、OpenAIのChatGPTに対抗する新しいAIモデル、「Gemini」を発表した。どちらのモデルも「生成AI」の一例であり、入力された学習情報のパターンを見つけて学習し、新しいデータ（画像、単語、その他のメディア）を生成するものだが、ChatGPTはテキストを生成することに焦点を当てた大規模言語モデル（LLM）である。

ChatGPTがGPTとして知られるニューラルネットワーク（膨大な量のテキストで学習）に基づいている会話用ウェブアプリであるのと同じように、GoogleにはLaMDAと呼ばれるモデル（対話で学習）に基づいていたBardという会話用ウェブアプリがある。しかしGoogleは現在、それをGeminiに基づいてアップグレードしている。

GeminiがLaMDAのような以前の生成AIモデルと異なる点は、「マルチモーダルモデル」であることだ。これは、複数の入出力モードで直接動作することを意味する。テキストの入出力をサポートするだけでなく、画像、音声、ビデオもサポートする。従って、新しい略語が生まれつつある：LLMと混同しないように。

OpenAIは9月、画像、音声、テキストも扱えるGPT-4Vというモデルを発表した。しかし、Geminiが約束するような完全なマルチモーダルモデルではない。

例えば、GPT-4Vを搭載したChatGPT-4は音声入力を扱うことができ、音声出力を生成することができるが、OpenAIはこれがWhisperと呼ばれる別のディープラーニングモデルを使って入力時に音声をテキストに変換することで行われていることを確認している。ChatGPT-4はまた、別のモデルを使って出力時にテキストを音声に変換しており、GPT-4V自体は純粋にテキストで動作していることになる。

同様に、ChatGPT-4は画像を生成することができるが、それはDall-E 3と呼ばれる別のディープラーニングモデルに渡されるテキストプロンプトを生成することによって行われる。

対照的に、GoogleはGeminiを「ネイティブ・マルチモーダル」に設計した。これは、コアモデルがさまざまな入力タイプ（音声、画像、動画、テキスト）を直接扱い、それらも直接出力できることを意味する。

評決

これら2つのアプローチの区別は学術的なものに見えるかもしれないが、重要なことである。Googleのテクニカルレポートとこれまでの他の定性的なテストから得られた一般的な結論は、Gemini 1.0 Proと呼ばれる現在公開されているGeminiのバージョンは、GPT-4ほど一般的には優れておらず、GPT 3.5に近い能力を持っているということだ。

Googleはまた、Gemini 1.0 Ultraと呼ばれるより強力なバージョンのGeminiを発表し、GPT-4よりも強力であることを示すいくつかの結果を示した。しかし、これを評価するのは難しい。第一の理由は、GoogleがUltraをまだリリースしていないため、現時点では結果を独自に検証できないことである。

Googleの主張を評価するのが難しい2つ目の理由は、GoogleがややGoogleのGemini“ハンズオン”ビデオは大幅な編集と演出が行われている事が判明からである。このビデオでは、Geminiモデルがライブビデオストリーム上でインタラクティブかつ流暢にコメントしている。

しかし、Bloombergが当初報じたように、ビデオの中のデモンストレーションはリアルタイムで行われたわけではない。例えば、Geminiがボールがどのカップの下にあるかを追跡する「3つのカップとボールのトリック」などである。そのために、入れ替わるカップの上に司会者の手がある一連の静止画像が提供されていた。

将来への期待

このような問題があるにもかかわらず、Geminiや大規模なマルチモーダルモデルは、生成AIにとって非常にエキサイティングな前進であると私は信じている。それは、その将来的な能力のためでもあり、AIツールの競争環境のためでもある。以前の記事で述べたように、GPT-4は約5,000億語で学習された。

ディープラーニング・モデルの性能は、一般的にモデルの複雑さと学習データ量の増加によって左右される。このため、言語モデル用の新しい学習データがほぼ出尽くした今、どのようにしてさらなる改善を達成できるのかという疑問が投げかけられている。しかし、マルチモーダル・モデルは、画像、音声、動画といった形で、膨大な量の新しい学習データを提供する。

GeminiのようなAIは、このようなデータをすべて直接学習させることができるため、今後さらに大きな能力を発揮することになるだろう。例えば、ビデオで訓練されたモデルは、「ナイーブ物理学」と呼ばれるものの洗練された内部表現を発達させると予想される。これは、因果関係、運動、重力、その他の物理現象について、人間や動物が持っている基本的な理解である。

私は、このことがAIの競争環境にとって何を意味するのかについても興奮している。過去1年間、多くの生成AIモデルが出現しているにもかかわらず、OpenAIのGPTモデルは、他のモデルが近づくことができないレベルの性能を示し、支配的だった。

GoogleのGeminiは、この分野を前進させる主要な競争相手の出現を示唆している。もちろん、OpenAIがGPT-5に取り組んでいることはほぼ確実であり、マルチモーダルにも対応し、驚くべき新機能を発揮することが期待される。

とはいえ、私はオープンソースで非商用的な、非常に大規模なマルチモーダルモデルの出現を切望している。

私は、Geminiの実装のいくつかの機能も気に入っている。例えば、GoogleはGemini Nanoと呼ばれる、より軽量で携帯電話上で直接実行可能なバージョンを発表した。

このような軽量モデルは、AIコンピューティングが環境に与える影響を軽減し、プライバシーの観点からも多くの利点がある。

本記事は、Michael G. Madden氏によって執筆され、The Conversationに掲載された記事「Google’s Gemini: is the new AI model really better than ChatGPT?」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。

AI, Gemini, Google, マルチモーダルモデル, 大規模言語モデル

この記事が面白かったら是非シェアをお願いします！

次の記事
iPhone 17 Pro Maxは48MP望遠カメラを搭載しApple Vision Proと連動する設計を取り入れる可能性
2023年12月17日 6:14

前の記事
OpenAIはGPT-2にGPT-4を監視させる方法から将来の超人的なAIの制御方法を探求している
2023年12月16日 8:55

スポンサーリンク

この記事を書いた人

The Conversation

The Conversationは、ニュース記事や調査報告書をオンラインで公開する非営利メディアのネットワークで、専門家の意見や分析が添えられている。記事はクリエイティブ・コモンズ・ライセンスのもと、学者や研究者によって書かれ、改変せずに再利用できるようになっている。画像の著作権条件は通常、画像のキャプションと帰属に記載されている。そのモデルは説明的ジャーナリズムと評されている。「例外的状況」を除き、「大学や公認研究機関など公認機関に雇われた、あるいは公認機関と正式につながっている学者」による記事のみを掲載する。

コメントを残すコメントをキャンセル

おすすめ記事

今読まれている記事