Google、多くの面でGPT-4を凌駕する最先端AI「Gemini」を発表 | TEXAL

Google、多くの面でGPT-4を凌駕する最先端AI「Gemini」を発表

masapoco

投稿日 2023年12月7日 6:22

テクノロジー

final keyword header.width 1600.format webp

本記事は広告およびアフィリエイトプログラムによる収益を得ています。

Googleは、待望の次世代AIモデル「Gemini 1.0」をついに発表した。Geminiは3つの異なるサイズ、「Gemini Ultra」「Gemini Pro」「Gemini Nano」から構成され、最も汎用的なGemini Proは、英語版のBardに搭載されて本日リリースされた。OpenAIのGPT-4を凌駕するGeminiの最も高度な最大のモデルGemini Ultraは、2024年初頭に、Bardの改良版である「Bard Advanced」に搭載されてデビューするとのことだ。

Google's newest and most capable AI | Gemini

マルチモーダルのために1から構築されたモデル

Geminiはマルチモーダルであるために1から構築されたAIモデルであり、テキスト、画像、音声、ビデオ、コードなど、さまざまなタイプの情報を一般化し、シームレスに理解し、操作し、組み合わせることが可能となっている。これは、洗練されたマルチモーダル推論と高度なコーディング能力を備えていることを意味する。

The capabilities of multimodal AI | Gemini Demo

Geminiは現在、画像生成を提供していないが、テクニカルレポートによると、この機能は利用可能であり、おそらく徐々に導入されるであろう。Geminiは、画像、テキスト、またはその2つの組み合わせでプロンプトを表示することができる。

Google BardにGemini Proが搭載

また、Ultra、Pro、Nanoの3つの異なるサイズを持つGeminiは、データセンターからモバイルデバイスまで、あらゆる場所で実行できる柔軟性を備えている。

GeminiはGoogleのTensor Processing Units (TPUs) v4およびv5eを使用して、AIに最適化されたインフラストラクチャ上で大規模にトレーニングされており、加えてGoogleはこれまでで最もパワフルでスケーラブルなTPUシステム、Cloud TPU v5pも発表している。Gemini ProとGemini NanoはGoogle Cloudを通じて利用可能だ。

Googleによると、Gemini Proは、OpenAIの1年前のAIモデルGPT-3.5に対抗するものだという。Massive Multitask Language Understanding (MMLU)や小学校レベルの算数の問題解決能力を測定するGSM8Kを含む8つのベンチマークのうち6つでGPT-3.5を上回った。Googleによると、独立した第三者によるブラインドテストでは、BardはChatGPTよりも好ましい無料チャットボットであると評価されたという。

中堅モデルのGemini ProはGoogleのAIチャットボットBard（英語バージョン）に本日より搭載されている。Googleによると、Gemini Pro Englishは170以上の国と地域で利用可能だ。PaLM 2言語モデルを搭載した以前のバージョンよりも、テキストを理解し要約する能力に優れているはずだが、今のところBardのGemini-Proバージョンはテキストを処理して生成することしかできず、英語しかサポートしていない。

さらにコンパクトなバージョンであるGemini Nano（1.8Bパラメータと3.25Bパラメータ）は、オンデバイスタスク向けに最適化されたモデルで、Androidアプリ開発用途に向く。Nanoモデルは、より大きなGeminiモデルから抽出されたものである。なお、Gemini Pro及びGemini Ultraのパラメータ数は明らかにされていない。

Googleはまた、GmailやGoogle Docsなど、検索、広告、Chrome、Duet AI製品の一部をGemini Proで刷新する予定だ。

“GPT-4に圧勝”のGemini Ultraは2024年登場

Geminiの最大バージョンであるGemini Ultraは、テキストや画像の理解、コード生成のための一般的なベンチマークにおいて、OpenAIのGPT-4を上回ることが期待されている。Gemini Ultraは2024年初頭にリリースされ、AIチャットボット「Bard」の「上級」バージョンにも統合される予定だ。

gemini final text table bigger font amendment lines

gemini final multimodal table bigger font amendment lines

上の結果の通り、Googleは、”大規模言語モデル（LLM）の研究開発で使用される32の広く使用されている学術的ベンチマークのうち30″においてGemini Ultraが圧勝したことを強調している。

広範なベンチマークを評価した結果、我々の最も有能なGemini Ultraモデルは、これらのベンチマークの32のうち30において技術水準を向上させていることがわかった。特に、よく研究されている試験ベンチマークMMLUにおいて、人間の専門家によるパフォーマンスを達成した最初のモデルであり、我々が調査した20のマルチモーダルベンチマークのすべてにおいて技術水準を向上させている。
Google Deepmind, Technical Report

ただし、Googleのベンチマーク結果は、独立した第三者テスターによる確認も必要になるだろう。MIT Technology ReviewがGeminiの記事で懐疑的に書いているように、誰もが感心する内容かというとそうでもないようだ。「Google DeepMindは、Geminiは32の標準的な性能測定のうち30でGPT-4を上回っていると主張している。しかし、その差はわずかである。デモから判断すると、多くのことを非常にうまくこなしているが、これまでに見たことのないようなことはほとんどしていない」。その他のベンチマーク結果はDeepmindから入手できる。

来年早々にリリースされるより高度なチャットボット「Bard Advanced」では、ユーザーは最も高度なモデルGemini Ultraと機能にアクセスできるようになる。OpenAIがChatGPT Plusで行っているように、Googleがこれに課金するかどうかは不明だ。

またGoogleの最新のPixel 8 ProはGemini Nanoを搭載し、Recorderアプリで音声ファイルを要約し、Gboard仮想キーボードアプリでテキストメッセージに素早く返信するという2つの新機能をサポートする。Googleは、スマートフォン向けにGemini Nanoの上にさらに多くのAI機能を構築し、AICoreサービスでサードパーティのAndroid開発者にもソフトウェアを開放する予定だという。

最後に、Geminiは大きな進化を遂げたが、幻覚として知られる事実と異なる情報を生成するという、すべての大規模言語モデル（LLM）と同じ限界に悩まされている点はこれまでと同様だという。

「その素晴らしい能力にもかかわらず、LLMの使用には限界があることに注意すべきです。LLMによって生成される “幻覚”については、モデルの出力がより信頼性が高く検証可能であることを保証するために、継続的な研究開発が必要です。LLMはまた、因果関係の理解、論理的演繹、反事実的推論といった高度な推論能力を必要とするタスクに苦戦しています」とGeminiチームは警告している。

それでもGoogleはこのテクノロジーに多額の投資を行っている。

「AIファースト企業として歩み始めて8年近くになりますが、進歩のペースは加速するばかりです：何百万人もの人々が、より複雑な質問に対する答えを見つけることから、共同作業や創作のための新しいツールの使用まで、1年前ですらできなかったことをするために、当社の製品全体で生成AIを使用しています」と、CEOのSundar Pichai氏は語っている。

Sources

Google DeepMind: Welcome to the Gemini era
Google The Keyword:

AI, Bard, Gemini, Google, チャットボット

この記事が面白かったら是非シェアをお願いします！

次の記事
Google、同社史上最も強力なAIアクセラレーター「Cloud TPU v5p」を発表
2023年12月7日 6:35

前の記事
約束されたMMO『The Day Before』がついに早期リリース
2023年12月7日 5:37

スポンサーリンク

この記事を書いた人

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

コメントを残すコメントをキャンセル

おすすめ記事

今読まれている記事