あなたの好奇心を刺激する、テックと科学の総合ニュースサイト

Microsoft、画像を理解し視覚的なIQテストに合格できるAIモデル「Kosmos-1」を発表

Microsoftは、「Language Is Not All You Need: Aligning Perception with Language Models(知覚と言語モデルの整合)」と題する研究論文を発表し、その中で、「Kosmos-1」と呼ばれるマルチモーダルな大規模言語モデル(MLLM)を導入している。

この論文では、汎用人工知能(AGI)の実現に向けたステップのために、言語、行動、マルチモーダル知覚、世界モデリングを統合することの重要性について述べている。そして、コンテンツの画像を分析し、視覚的なパズルを解き、視覚的なテキスト認識を実行し、視覚的な IQ テストに合格し、自然言語の指示を理解できると報告されているマルチモーダル大規模言語モデルとして「Kosmos-1」を紹介している。

「知能の基本的な部分であるマルチモーダルな知覚は、知識の獲得と現実世界への接地という点で、人工的な汎用知能を達成するために必要です」と研究者は学術論文に書いている。

Microsoftは、KOSMOS-1モデルを以下のタスクで評価した。

  • 言語タスク
    • 言語理解
    • 言語生成
    • OCR不要のテキスト分類
  • クロスモーダル転送
    • コモンセンス推論
  • 非言語的推論
    • IQテスト(レイヴン累進行列)
  • 知覚-言語タスク
    • 画像キャプション
    • 視覚的な質問に対する回答
    • Webページの質問応答
  • 視覚タスク
    • ゼロショット画像分類
    • 説明文を用いたゼロショット画像の分類

Microsoft の評価によると、Kosmos-1は、言語理解、生成、マルチモーダル ダイアログ、画像キャプション、視覚的質問応答、ビジョン タスクで優れたパフォーマンスを達成したとのことだ。

評価結果の詳細は、下記のソースリンクからご覧頂ける。また、Microsoftは、KOSMOS-1のモデルサイズを拡大し、音声機能をKOSMOS-1に統合する計画があることも示唆している。


論文

参考文献

研究の要旨

言語、マルチモーダル知覚、行動、世界モデリングの大きな融合は、人工一般知能への重要なステップである。本研究では、一般的なモダリティを知覚し、文脈に応じた学習(=少数ショット)、指示に従う(=ゼロショット)ことができるマルチモーダル大規模言語モデル(MLLM)、Kosmos-1を紹介する。具体的には、テキストと画像を任意にインターリーブしたコーパス、画像とキャプションのペア、テキストデータなど、Webスケールのマルチモーダルコーパスを用いて、Kosmos-1をゼロから学習させる。また、ゼロショット、数ショット、マルチモーダル思考連鎖プロンプトなど、様々な設定を、勾配の更新や微調整を行わずに、様々なタスクで評価する。実験の結果、Kosmos-1は、(i)言語理解、生成、OCRフリーNLP(文書画像を直接入力)、(ii)マルチモーダル対話、画像キャプション、視覚質問応答などの知覚-言語タスク、(iii)記述付き画像認識(テキスト指示による分類指定)などの視覚タスク、で素晴らしい性能を達成することが示された。また、MLLMがクロスモーダルな伝達、すなわち、言語からマルチモーダル、マルチモーダルから言語への知識伝達の恩恵を受けられることを示す。さらに、MLLMの非言語的推論能力を診断するRaven IQテストのデータセットも紹介する。

Follow Me !

\ この記事が気に入ったら是非フォローを! /

Share on:

関連コンテンツ

おすすめ記事

コメントする