Googleの次世代マルチモーダルAIモデル「Gemini」は、今秋ローンチされ、OpenAIのGPT-4と競合し、AIアプリ開発者も利用できるようになると、The InformationがGeminiの開発に携わる匿名の人物の話として伝えている。
Geminiは「大規模なAIモデル群」だと情報筋は述べており、OpenAIと同様に、GoogleもGPT-4が採用している「特定の能力を持つ複数のAIエキスパートモデルで構成されるモデルアーキテクチャ」というアプローチを採用する可能性を示唆している。また、GoogleがGeminiをさまざまなサイズで利用できるようにしたいと考えていることを意味する可能性もあり、これはコスト効率に優れている可能性が高い。
Geminiはテキストだけでなく画像も扱うことが出来るマルチモーダルモデルになるとも言われている。また、GeminiはYouTubeの動画トランスクリプトでもトレーニングされているため、RunwayML Gen-2やPika Labsのように簡単な動画を生成することもできるだろう。更にコーディング能力も大幅に向上しているという。
Googleは、GeminiをBardのチャットボットやGoogleDocsやスライドなどの製品に徐々に統合していく予定だ。今年の後半には、GeminiはGoogle Cloudで外部の開発者にも提供される予定だ。
Googleの多くの社員が関与
The Informationによると、このモデルの開発には少なくとも20人以上の幹部が関わっているという。Google BrainとGoogle DeepMindで構成されるGemini開発チームには、数百人の従業員が関わっているという。
Google DeepMindは最近統合されたばかりで、リモートワークの方針やモデルの訓練に使用する技術など、適切なバランスをまだ見つけられていない、とThe Informationは伝えている。DeepMindは、コードネーム “Goodall”と呼ばれ、”Chipmun “と呼ばれる未発表モデルに基づくChatGPTの競合を放棄し、Geminiを採用したと報じられている。
Geminiのチームは、DeepMindの創業者Demis Hassabis氏が率い、DeepMindの2人の幹部、Oriol Vinyals氏とKoray Kavukcuoglu氏、そして元Google Brainのチーフ、Jeff Dean氏がサポートしている。Google創業者のSergey Brin氏もGeminiの開発に関わっており、モデルの訓練と評価を手伝っていると言われている。
Geminiのトレーニング教材は、Googleの法務部によって綿密に監視されており、著作権のからんだ書籍のデータなどは徹底的に除外されているようだ。The Informationの情報源によると、Geminiまた、不注意にも「不快な」コンテンツでトレーニングされた事もあり、そのためモデルの(部分的な)再トレーニングにつながったようだ。
Geminiの存在は5月に正式に発表された。以前の噂では、このモデルは少なくとも1兆個のパラメーターを持つと言われており、トレーニングには何万ものGoogleのTPU AIチップが使われると言われている。
GeminiのCEOであるDemis Hassabis氏は6月下旬、Geminiは「AlphaGoタイプのシステムの強みのいくつかと、大規模モデルの驚くべき言語能力を組み合わせたものになる」と述べた。また、「かなり面白くなりそうな新機軸もいくつかあります」と述べている。
Source
- The Information: How Google is Planning to Beat OpenAI
コメントを残す