Microsoft、画像を理解し視覚的なIQテストに合格できるAIモデル「Kosmos-1」を発表

masapoco
投稿日 2023年3月2日 12:33
brain memory
brain memory

Microsoftは、「Language Is Not All You Need: Aligning Perception with Language Models(知覚と言語モデルの整合)」と題する研究論文を発表し、その中で、「Kosmos-1」と呼ばれるマルチモーダルな大規模言語モデル(MLLM)を導入している。

この論文では、汎用人工知能(AGI)の実現に向けたステップのために、言語、行動、マルチモーダル知覚、世界モデリングを統合することの重要性について述べている。そして、コンテンツの画像を分析し、視覚的なパズルを解き、視覚的なテキスト認識を実行し、視覚的な IQ テストに合格し、自然言語の指示を理解できると報告されているマルチモーダル大規模言語モデルとして「Kosmos-1」を紹介している。

「知能の基本的な部分であるマルチモーダルな知覚は、知識の獲得と現実世界への接地という点で、人工的な汎用知能を達成するために必要です」と研究者は学術論文に書いている。

Microsoftは、KOSMOS-1モデルを以下のタスクで評価した。

  • 言語タスク
    • 言語理解
    • 言語生成
    • OCR不要のテキスト分類
  • クロスモーダル転送
    • コモンセンス推論
  • 非言語的推論
    • IQテスト(レイヴン累進行列)
  • 知覚-言語タスク
    • 画像キャプション
    • 視覚的な質問に対する回答
    • Webページの質問応答
  • 視覚タスク
    • ゼロショット画像分類
    • 説明文を用いたゼロショット画像の分類

Microsoft の評価によると、Kosmos-1は、言語理解、生成、マルチモーダル ダイアログ、画像キャプション、視覚的質問応答、ビジョン タスクで優れたパフォーマンスを達成したとのことだ。

評価結果の詳細は、下記のソースリンクからご覧頂ける。また、Microsoftは、KOSMOS-1のモデルサイズを拡大し、音声機能をKOSMOS-1に統合する計画があることも示唆している。


論文

参考文献

研究の要旨

言語、マルチモーダル知覚、行動、世界モデリングの大きな融合は、人工一般知能への重要なステップである。本研究では、一般的なモダリティを知覚し、文脈に応じた学習(=少数ショット)、指示に従う(=ゼロショット)ことができるマルチモーダル大規模言語モデル(MLLM)、Kosmos-1を紹介する。具体的には、テキストと画像を任意にインターリーブしたコーパス、画像とキャプションのペア、テキストデータなど、Webスケールのマルチモーダルコーパスを用いて、Kosmos-1をゼロから学習させる。また、ゼロショット、数ショット、マルチモーダル思考連鎖プロンプトなど、様々な設定を、勾配の更新や微調整を行わずに、様々なタスクで評価する。実験の結果、Kosmos-1は、(i)言語理解、生成、OCRフリーNLP(文書画像を直接入力)、(ii)マルチモーダル対話、画像キャプション、視覚質問応答などの知覚-言語タスク、(iii)記述付き画像認識(テキスト指示による分類指定)などの視覚タスク、で素晴らしい性能を達成することが示された。また、MLLMがクロスモーダルな伝達、すなわち、言語からマルチモーダル、マルチモーダルから言語への知識伝達の恩恵を受けられることを示す。さらに、MLLMの非言語的推論能力を診断するRaven IQテストのデータセットも紹介する。



この記事が面白かったら是非シェアをお願いします!


  • microsoft
    次の記事

    リーク情報から、Intelの次期チップはWindows 12をサポートするようだ

    2023年3月2日 17:04
  • 前の記事

    オープンソースゲームエンジン「Godot 4.0」安定版がリリース

    2023年3月2日 12:02
    godot 4 0 sets sail
この記事を書いた人
masapoco

スポンサーリンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

  • microsoft edge chromium

    Microsoft EdgeブラウザでRAMの消費量を制御出来る機能がテスト中

  • what is ai pc

    Intel、「AI PC」の要件は40TOPS以上の性能を持つNPUが必要と述べる、ただしMeteor Lakeはこれを満たさず

  • amazon anthropic

    Amazon、AIスタートアップのAnthropicに“現金”27億5千万ドルを投資

  • 854f82b63ec3ff5c24f3787df5d0afc3

    GPT-4がついに王座陥落、AnthropicのClaude 3がベンチマークで1位に輝く

今読まれている記事