Microsoft、画像を理解し視覚的なIQテストに合格できるAIモデル「Kosmos-1」を発表

Microsoftは、「Language Is Not All You Need: Aligning Perception with Language Models（知覚と言語モデルの整合）」と題する研究論文を発表し、その中で、「Kosmos-1」と呼ばれるマルチモーダルな大規模言語モデル（MLLM）を導入している。

この論文では、汎用人工知能（AGI）の実現に向けたステップのために、言語、行動、マルチモーダル知覚、世界モデリングを統合することの重要性について述べている。そして、コンテンツの画像を分析し、視覚的なパズルを解き、視覚的なテキスト認識を実行し、視覚的な IQ テストに合格し、自然言語の指示を理解できると報告されているマルチモーダル大規模言語モデルとして「Kosmos-1」を紹介している。

「知能の基本的な部分であるマルチモーダルな知覚は、知識の獲得と現実世界への接地という点で、人工的な汎用知能を達成するために必要です」と研究者は学術論文に書いている。

Microsoftは、KOSMOS-1モデルを以下のタスクで評価した。

言語タスク
- 言語理解
- 言語生成
- OCR不要のテキスト分類
クロスモーダル転送
- コモンセンス推論
非言語的推論
- IQテスト（レイヴン累進行列）
知覚-言語タスク
- 画像キャプション
- 視覚的な質問に対する回答
- Webページの質問応答
視覚タスク
- ゼロショット画像分類
- 説明文を用いたゼロショット画像の分類

Microsoft の評価によると、Kosmos-1は、言語理解、生成、マルチモーダルダイアログ、画像キャプション、視覚的質問応答、ビジョンタスクで優れたパフォーマンスを達成したとのことだ。

評価結果の詳細は、下記のソースリンクからご覧頂ける。また、Microsoftは、KOSMOS-1のモデルサイズを拡大し、音声機能をKOSMOS-1に統合する計画があることも示唆している。

論文

arXiv.org: Language Is Not All You Need: Aligning Perception with Language Models

参考文献

Ars Technica: Microsoft unveils AI model that understands image content, solves visual puzzles

研究の要旨

言語、マルチモーダル知覚、行動、世界モデリングの大きな融合は、人工一般知能への重要なステップである。本研究では、一般的なモダリティを知覚し、文脈に応じた学習（＝少数ショット）、指示に従う（＝ゼロショット）ことができるマルチモーダル大規模言語モデル（MLLM）、Kosmos-1を紹介する。具体的には、テキストと画像を任意にインターリーブしたコーパス、画像とキャプションのペア、テキストデータなど、Webスケールのマルチモーダルコーパスを用いて、Kosmos-1をゼロから学習させる。また、ゼロショット、数ショット、マルチモーダル思考連鎖プロンプトなど、様々な設定を、勾配の更新や微調整を行わずに、様々なタスクで評価する。実験の結果、Kosmos-1は、(i)言語理解、生成、OCRフリーNLP（文書画像を直接入力）、(ii)マルチモーダル対話、画像キャプション、視覚質問応答などの知覚-言語タスク、(iii)記述付き画像認識（テキスト指示による分類指定）などの視覚タスク、で素晴らしい性能を達成することが示された。また、MLLMがクロスモーダルな伝達、すなわち、言語からマルチモーダル、マルチモーダルから言語への知識伝達の恩恵を受けられることを示す。さらに、MLLMの非言語的推論能力を診断するRaven IQテストのデータセットも紹介する。