Googleは、待望の次世代AIモデル「Gemini 1.0」をついに発表した。Geminiは3つの異なるサイズ、「Gemini Ultra」「Gemini Pro」「Gemini Nano」から構成され、最も汎用的なGemini Proは、英語版のBardに搭載されて本日リリースされた。OpenAIのGPT-4を凌駕するGeminiの最も高度な最大のモデルGemini Ultraは、2024年初頭に、Bardの改良版である「Bard Advanced」に搭載されてデビューするとのことだ。
マルチモーダルのために1から構築されたモデル
Geminiはマルチモーダルであるために1から構築されたAIモデルであり、テキスト、画像、音声、ビデオ、コードなど、さまざまなタイプの情報を一般化し、シームレスに理解し、操作し、組み合わせることが可能となっている。これは、洗練されたマルチモーダル推論と高度なコーディング能力を備えていることを意味する。
Geminiは現在、画像生成を提供していないが、テクニカルレポートによると、この機能は利用可能であり、おそらく徐々に導入されるであろう。Geminiは、画像、テキスト、またはその2つの組み合わせでプロンプトを表示することができる。
Google BardにGemini Proが搭載
また、Ultra、Pro、Nanoの3つの異なるサイズを持つGeminiは、データセンターからモバイルデバイスまで、あらゆる場所で実行できる柔軟性を備えている。
GeminiはGoogleのTensor Processing Units (TPUs) v4およびv5eを使用して、AIに最適化されたインフラストラクチャ上で大規模にトレーニングされており、加えてGoogleはこれまでで最もパワフルでスケーラブルなTPUシステム、Cloud TPU v5pも発表している。Gemini ProとGemini NanoはGoogle Cloudを通じて利用可能だ。
Googleによると、Gemini Proは、OpenAIの1年前のAIモデルGPT-3.5に対抗するものだという。Massive Multitask Language Understanding (MMLU)や小学校レベルの算数の問題解決能力を測定するGSM8Kを含む8つのベンチマークのうち6つでGPT-3.5を上回った。Googleによると、独立した第三者によるブラインドテストでは、BardはChatGPTよりも好ましい無料チャットボットであると評価されたという。
中堅モデルのGemini ProはGoogleのAIチャットボットBard(英語バージョン)に本日より搭載されている。Googleによると、Gemini Pro Englishは170以上の国と地域で利用可能だ。PaLM 2言語モデルを搭載した以前のバージョンよりも、テキストを理解し要約する能力に優れているはずだが、今のところBardのGemini-Proバージョンはテキストを処理して生成することしかできず、英語しかサポートしていない。
さらにコンパクトなバージョンであるGemini Nano(1.8Bパラメータと3.25Bパラメータ)は、オンデバイスタスク向けに最適化されたモデルで、Androidアプリ開発用途に向く。Nanoモデルは、より大きなGeminiモデルから抽出されたものである。なお、Gemini Pro及びGemini Ultraのパラメータ数は明らかにされていない。
Googleはまた、GmailやGoogle Docsなど、検索、広告、Chrome、Duet AI製品の一部をGemini Proで刷新する予定だ。
“GPT-4に圧勝”のGemini Ultraは2024年登場
Geminiの最大バージョンであるGemini Ultraは、テキストや画像の理解、コード生成のための一般的なベンチマークにおいて、OpenAIのGPT-4を上回ることが期待されている。Gemini Ultraは2024年初頭にリリースされ、AIチャットボット「Bard」の「上級」バージョンにも統合される予定だ。
上の結果の通り、Googleは、”大規模言語モデル(LLM)の研究開発で使用される32の広く使用されている学術的ベンチマークのうち30″においてGemini Ultraが圧勝したことを強調している。
広範なベンチマークを評価した結果、我々の最も有能なGemini Ultraモデルは、これらのベンチマークの32のうち30において技術水準を向上させていることがわかった。特に、よく研究されている試験ベンチマークMMLUにおいて、人間の専門家によるパフォーマンスを達成した最初のモデルであり、我々が調査した20のマルチモーダルベンチマークのすべてにおいて技術水準を向上させている。
Google Deepmind, Technical Report
ただし、Googleのベンチマーク結果は、独立した第三者テスターによる確認も必要になるだろう。MIT Technology ReviewがGeminiの記事で懐疑的に書いているように、誰もが感心する内容かというとそうでもないようだ。「Google DeepMindは、Geminiは32の標準的な性能測定のうち30でGPT-4を上回っていると主張している。しかし、その差はわずかである。デモから判断すると、多くのことを非常にうまくこなしているが、これまでに見たことのないようなことはほとんどしていない」。その他のベンチマーク結果はDeepmindから入手できる。
来年早々にリリースされるより高度なチャットボット「Bard Advanced」では、ユーザーは最も高度なモデルGemini Ultraと機能にアクセスできるようになる。OpenAIがChatGPT Plusで行っているように、Googleがこれに課金するかどうかは不明だ。
またGoogleの最新のPixel 8 ProはGemini Nanoを搭載し、Recorderアプリで音声ファイルを要約し、Gboard仮想キーボードアプリでテキストメッセージに素早く返信するという2つの新機能をサポートする。Googleは、スマートフォン向けにGemini Nanoの上にさらに多くのAI機能を構築し、AICoreサービスでサードパーティのAndroid開発者にもソフトウェアを開放する予定だという。
最後に、Geminiは大きな進化を遂げたが、幻覚として知られる事実と異なる情報を生成するという、すべての大規模言語モデル(LLM)と同じ限界に悩まされている点はこれまでと同様だという。
「その素晴らしい能力にもかかわらず、LLMの使用には限界があることに注意すべきです。LLMによって生成される “幻覚”については、モデルの出力がより信頼性が高く検証可能であることを保証するために、継続的な研究開発が必要です。LLMはまた、因果関係の理解、論理的演繹、反事実的推論といった高度な推論能力を必要とするタスクに苦戦しています」とGeminiチームは警告している。
それでもGoogleはこのテクノロジーに多額の投資を行っている。
「AIファースト企業として歩み始めて8年近くになりますが、進歩のペースは加速するばかりです:何百万人もの人々が、より複雑な質問に対する答えを見つけることから、共同作業や創作のための新しいツールの使用まで、1年前ですらできなかったことをするために、当社の製品全体で生成AIを使用しています」と、CEOのSundar Pichai氏は語っている。
Sources
- Google DeepMind: Welcome to the Gemini era
- Google The Keyword:
コメントを残す