Lakehouseの開発元であるDatabricksは、顧客が自社のデータでAIモデルを構築・展開できるよう、生成AIのスタートアップMosaicMLを13億ドル(記事公開時:1,860億円)で買収する。この買収は、生成AIを組織にとって利用しやすいものにし、”自社のデータで生成AIモデルを構築し、所有し、安全に利用できるようにする”ことを目的としているとのことだ。
LLMは、クエリを理解し、複数のデータソースを分析し、自然言語で回答したり、プログラミング言語を生成することもできるAIの先駆けとなった。しかし、間違った答えや架空の答えを出すこともあり、実行にはかなりのGPUリソースが必要だ。MosaicMLは、顧客が最小限のシステムで実行し、一般に公開されていない独自のデータでモデルを学習させることを支援する。
DatabricksのCEOであるAli Ghodsi氏は次のように述べている:「すべての組織は、データの使用方法をよりコントロールすることで、AI革命の恩恵を受けることができるはずです。DatabricksとMosaicMLは、AIを民主化し、LakehouseをジェネレーティブAIとLLMを構築する最高の場所にする素晴らしい機会を得ました」。
4月にDatabricksは、大規模なGPUリソースや高価なAPIの使用を必要とせずに、ビジネスアプリケーションでAI設備を利用できるようにするために、オープンソースのDolly LLMをアップデートしたことを明らかにした。チャットボットは、DatabricksのLakehouseに対して実行されるクエリを生成するために使用できる。
MosaicMLは、IntelのAI製品グループの元副社長兼ゼネラルマネージャーであるNaveen Rao CEOと、IntelのAIラボのシニアディレクターであったHanling Tang CTOによって2021年に設立された。これまでに6,400万ドルの資金を調達している。MosaicMLのオープンソースLLMはMPT-7Bアーキテクチャをベースにしており、70億のパラメータと64,000トークンのコンテキストウィンドウで構築されている。
MPT-7Bのダウンロード数は330万を超え、最近ではMPT-30Bがリリースされた。これはMPT-7Bよりかなり強力で、オリジナルのGPT-3を凌駕している。MosaicMLによれば、MPT-30Bのサイズは、16ビット精度で1xA100-80GB、または8ビット精度で1xA100-40GBという、単一のGPUで簡単に展開できるように特別に選ばれたものだという。MosaicMLによると、Falcon-40Bのような他の同等のLLMは、パラメータ数が多く、データセンターのGPU1つでは処理できないため、2つ以上のGPUが必要となり、推論システムの最小コストが増加するという。
Databricksは、MosaicMLの技術を導入することで、顧客に高いコストをかけずにデータのコントロール、セキュリティ、所有権を維持するシンプルで迅速な方法を提供できるとしている。
MosaicMLの最適化は、標準的なアプローチと比較して2~7倍高速なモデルトレーニングを提供し、リニアにスケーラブルである。MosaicMLは、数十億パラメータのモデルを数日ではなく数時間でトレーニングできるとしている。
買収完了後、MosaicMLのチーム全員がDatabricksに加わる予定だ。MosaicMLのプラットフォームは時間をかけてサポート、拡張、統合される。顧客は、生成AIモデルを構築し、所有し、安全性を確保し、自社のデータでトレーニングできる統合プラットフォームを手に入れることになる。
買収に際して、Rao氏は次の様に述べている:「MosaicMLは、大規模なトレーニングを誰もが利用できるようにするために必要な、エンジニアリングや研究上の難しい問題を解決するために始めました。最近のジェネレーティブAIの波により、このミッションは中心的な役割を担うようになりました。Databricksとともに、私たちは多くの人に有利なように天秤を傾けるでしょう」。
提案された買収は、必要な規制当局の許可を含む、慣習的な完了条件に従って行われる。今後、他の生成AIスタートアップに対しての買収アプローチが加速する可能性がありそうだ。
Sources
コメントを残す