Microsoft、画像を理解し視覚的なIQテストに合格できるAIモデル「Kosmos-1」を発表

masapoco
投稿日
2023年3月2日 12:33
brain memory

Microsoftは、「Language Is Not All You Need: Aligning Perception with Language Models(知覚と言語モデルの整合)」と題する研究論文を発表し、その中で、「Kosmos-1」と呼ばれるマルチモーダルな大規模言語モデル(MLLM)を導入している。

この論文では、汎用人工知能(AGI)の実現に向けたステップのために、言語、行動、マルチモーダル知覚、世界モデリングを統合することの重要性について述べている。そして、コンテンツの画像を分析し、視覚的なパズルを解き、視覚的なテキスト認識を実行し、視覚的な IQ テストに合格し、自然言語の指示を理解できると報告されているマルチモーダル大規模言語モデルとして「Kosmos-1」を紹介している。

「知能の基本的な部分であるマルチモーダルな知覚は、知識の獲得と現実世界への接地という点で、人工的な汎用知能を達成するために必要です」と研究者は学術論文に書いている。

Microsoftは、KOSMOS-1モデルを以下のタスクで評価した。

  • 言語タスク
    • 言語理解
    • 言語生成
    • OCR不要のテキスト分類
  • クロスモーダル転送
    • コモンセンス推論
  • 非言語的推論
    • IQテスト(レイヴン累進行列)
  • 知覚-言語タスク
    • 画像キャプション
    • 視覚的な質問に対する回答
    • Webページの質問応答
  • 視覚タスク
    • ゼロショット画像分類
    • 説明文を用いたゼロショット画像の分類

Microsoft の評価によると、Kosmos-1は、言語理解、生成、マルチモーダル ダイアログ、画像キャプション、視覚的質問応答、ビジョン タスクで優れたパフォーマンスを達成したとのことだ。

評価結果の詳細は、下記のソースリンクからご覧頂ける。また、Microsoftは、KOSMOS-1のモデルサイズを拡大し、音声機能をKOSMOS-1に統合する計画があることも示唆している。


論文

参考文献

研究の要旨

言語、マルチモーダル知覚、行動、世界モデリングの大きな融合は、人工一般知能への重要なステップである。本研究では、一般的なモダリティを知覚し、文脈に応じた学習(=少数ショット)、指示に従う(=ゼロショット)ことができるマルチモーダル大規模言語モデル(MLLM)、Kosmos-1を紹介する。具体的には、テキストと画像を任意にインターリーブしたコーパス、画像とキャプションのペア、テキストデータなど、Webスケールのマルチモーダルコーパスを用いて、Kosmos-1をゼロから学習させる。また、ゼロショット、数ショット、マルチモーダル思考連鎖プロンプトなど、様々な設定を、勾配の更新や微調整を行わずに、様々なタスクで評価する。実験の結果、Kosmos-1は、(i)言語理解、生成、OCRフリーNLP(文書画像を直接入力)、(ii)マルチモーダル対話、画像キャプション、視覚質問応答などの知覚-言語タスク、(iii)記述付き画像認識(テキスト指示による分類指定)などの視覚タスク、で素晴らしい性能を達成することが示された。また、MLLMがクロスモーダルな伝達、すなわち、言語からマルチモーダル、マルチモーダルから言語への知識伝達の恩恵を受けられることを示す。さらに、MLLMの非言語的推論能力を診断するRaven IQテストのデータセットも紹介する。



この記事が面白かったら是非シェアをお願いします!


  • microsoft
    次の記事

    リーク情報から、Intelの次期チップはWindows 12をサポートするようだ

    2023年3月2日 17:04
  • 前の記事

    オープンソースゲームエンジン「Godot 4.0」安定版がリリース

    2023年3月2日 12:02
    godot 4 0 sets sail

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • Babylon 7

    Microsoft、Webゲーム用のグローバルイルミネーションサポートを追加したBabylon.js 7.0を公開

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

今読まれている記事