Meta、6種類のデータが相互連携出来る画期的なマルチモーダルAI「ImageBind」をオープンソースで発表

Metaは、テキスト、音声、視覚データ、温度、動きの読み取りなど、複数のデータストリームを連携させる新しいオープンソースのAIモデル「ImageBind」を発表した。

ImageBindは、テキスト、オーディオ、ビジュアル（画像と動画）、深度情報、熱（赤外線画像）、モーション（慣性計測装置（IMU）が生成する動作測定値）を含む6つの異なるタイプのデータを扱うように設計されたマルチモーダルAIである。ImageBindは、サポートされているデータモードの1つで入力を受け、他のデータと関連付けることが出来る。Metaによると、6種類のデータを1つの埋め込み空間に統合したのは、このImageBindが初めてとのことだ。

この研究の核となるコンセプトは、複数の種類のデータを一つの多次元インデックス（AI用語でいうところの「埋め込み空間」）に結びつけることだ。

例えば、ビーチの写真を入力として与えると、関連するデータとして波の音を見つけることが出来る。また、虎の写真と滝の音を与えると、その両方を組み合わせた動画を提供することができるといった具合だ。

将来のAIシステムは、現在のAIシステムがテキスト入力に対して行うのと同じように、このデータを相互参照することができるようになるということだ。例えば、音声や映像の入力だけでなく、物理的なステージ上の環境や動きも生成する未来のバーチャルリアリティ装置において、「長い船旅を再現してください」と頼むと、波の音だけでなく、足元の甲板の揺れや海風の涼しさも含めて、船の中にいるような感覚を味わうことが出来る様になるだろう。実際のデモページはこちらで確認出来る。

Meta CEOのMark Zuckerberg氏はInstagramにおいて、「これは、私たちのように周囲の世界をより理解するAIへの一歩であり、それによってAIはより便利になり、全く新しいモノづくりの方法が開かれるでしょう」と語っている。

Metaはブログ記事で、ImageBindが、人間が複数の感覚から情報を集め、そのすべてを同時に総合的に処理する方法に似たアプローチをとっていると説明している。将来的には、対応するデータモードを、触覚、音声、嗅覚、脳のfMRI信号など、他の感覚にも拡大する計画で、より豊かな人間中心のAIモデルを実現するとの事だ。

参考までに、「DALL-E」「Stable Diffusion」「Midjourney」などのAI画像生成システムは、学習段階でテキストと画像をリンクさせるシステムを採用している。視覚データのパターンを探し、その情報を画像の説明と結びつけるのだ。そうすることで、ユーザーのテキスト入力に沿った画像を生成することができるようになる。映像や音声を生成するAIツールも同様だ。

このモデルは、現時点では研究プロジェクトに過ぎず、すぐに消費者や実用化されるものではないが、没入型の多感覚体験を生み出すことのできる生成AIシステムの未来を提示する物で、OpenAIやGoogleなどのライバルが秘密主義を強める中、MetaがAI研究の共有を続けていることを示している。

論文

Meta: IMAGEBIND:OneEmbeddingSpaceToBindThemAll (PDF)

参考文献

Meta: ImageBind: Holistic AI learning across six modalities

Meta、6種類のデータが相互連携出来る画期的なマルチモーダルAI「ImageBind」をオープンソースで発表

ChatGPTを利用してフェイクニュースを流した罪で中国で初の逮捕者が出た

Qualcomm、車載向けチップ製造のAutotalksを買収、自動運転分野への取り組みを強化へ

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

Meta、6種類のデータが相互連携出来る画期的なマルチモーダルAI「ImageBind」をオープンソースで発表

ChatGPTを利用してフェイクニュースを流した罪で中国で初の逮捕者が出た

Qualcomm、車載向けチップ製造のAutotalksを買収、自動運転分野への取り組みを強化へ

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル