Microsoftは、「Language Is Not All You Need: Aligning Perception with Language Models(知覚と言語モデルの整合)」と題する研究論文を発表し、その中で、「Kosmos-1」と呼ばれるマルチモーダルな大規模言語モデル(MLLM)を導入している。
この論文では、汎用人工知能(AGI)の実現に向けたステップのために、言語、行動、マルチモーダル知覚、世界モデリングを統合することの重要性について述べている。そして、コンテンツの画像を分析し、視覚的なパズルを解き、視覚的なテキスト認識を実行し、視覚的な IQ テストに合格し、自然言語の指示を理解できると報告されているマルチモーダル大規模言語モデルとして「Kosmos-1」を紹介している。
「知能の基本的な部分であるマルチモーダルな知覚は、知識の獲得と現実世界への接地という点で、人工的な汎用知能を達成するために必要です」と研究者は学術論文に書いている。
Microsoftは、KOSMOS-1モデルを以下のタスクで評価した。
- 言語タスク
- 言語理解
- 言語生成
- OCR不要のテキスト分類
- クロスモーダル転送
- コモンセンス推論
- 非言語的推論
- IQテスト(レイヴン累進行列)
- 知覚-言語タスク
- 画像キャプション
- 視覚的な質問に対する回答
- Webページの質問応答
- 視覚タスク
- ゼロショット画像分類
- 説明文を用いたゼロショット画像の分類
Microsoft の評価によると、Kosmos-1は、言語理解、生成、マルチモーダル ダイアログ、画像キャプション、視覚的質問応答、ビジョン タスクで優れたパフォーマンスを達成したとのことだ。
評価結果の詳細は、下記のソースリンクからご覧頂ける。また、Microsoftは、KOSMOS-1のモデルサイズを拡大し、音声機能をKOSMOS-1に統合する計画があることも示唆している。
論文
参考文献
研究の要旨
言語、マルチモーダル知覚、行動、世界モデリングの大きな融合は、人工一般知能への重要なステップである。本研究では、一般的なモダリティを知覚し、文脈に応じた学習(=少数ショット)、指示に従う(=ゼロショット)ことができるマルチモーダル大規模言語モデル(MLLM)、Kosmos-1を紹介する。具体的には、テキストと画像を任意にインターリーブしたコーパス、画像とキャプションのペア、テキストデータなど、Webスケールのマルチモーダルコーパスを用いて、Kosmos-1をゼロから学習させる。また、ゼロショット、数ショット、マルチモーダル思考連鎖プロンプトなど、様々な設定を、勾配の更新や微調整を行わずに、様々なタスクで評価する。実験の結果、Kosmos-1は、(i)言語理解、生成、OCRフリーNLP(文書画像を直接入力)、(ii)マルチモーダル対話、画像キャプション、視覚質問応答などの知覚-言語タスク、(iii)記述付き画像認識(テキスト指示による分類指定)などの視覚タスク、で素晴らしい性能を達成することが示された。また、MLLMがクロスモーダルな伝達、すなわち、言語からマルチモーダル、マルチモーダルから言語への知識伝達の恩恵を受けられることを示す。さらに、MLLMの非言語的推論能力を診断するRaven IQテストのデータセットも紹介する。
コメントを残す