AIによって生成された画像でAIを効率的にトレーニングする画期的な手法が開発された

masapoco
投稿日 2023年11月21日 15:44
StableRep2 transformed

AIトレーニングに用いる学習データの枯渇が叫ばれる中、MITの研究者らはテキストから画像を生成するシステムを用いて生成した合成画像を用いて機械学習モデルをトレーニングする「StableRep」と呼ばれる方法を開発した。この画期的なアプローチは、従来の“実在する画像”を用いて行うよりも良好な結果を得られるという。

StableRepの秘密は、「マルチポジティブ対照学習」という戦略にある。MITの電気工学の博士課程学生であり、MITコンピュータ科学・人工知能研究所(CSAIL)の研究員であるLijie Fan氏によると、このアプローチでは、同じテキストから生成された複数の画像を、同じ基礎となるものの表現として扱い、モデルに画像の背後にある概念をより深く学習させることを目指しているとのことだ。

このアプローチでは、同一のテキストプロンプトから生成された複数の画像を正のペアとして扱い、トレーニング中に追加情報を提供する。これにより、視覚システムにどの画像が似ていて、どの画像が異なるかを指定することができる。驚くべきことに、StableRepは、実画像でトレーニングされたトップティアモデル、例えばSimCLRやCLIPを、広範なデータセットで上回っている。

「最新のテキストから画像への変換モデルを使用することで、画像生成においてこれまでにない制御が可能になり、1つのテキスト入力から多様なビジュアルを得ることができるようになりました。これは、効率性と汎用性において、現実の画像収集を凌ぐものです。これは、ロングテール認識における画像の多様性のバランスのような特殊なタスクにおいて特に有用であり、トレーニングに実画像を使用することの実用的な補足となります。我々の研究は、データの質と合成における継続的な改善の必要性を強調しながら、費用対効果の高いトレーニング代替手段を提供するという目標に向けて、視覚学習における一歩前進を意味します」と、Fan氏は言う。

StableRepは、機械学習におけるデータ取得の課題を軽減するだけでなく、AIトレーニング技術を新たな段階に引き上げる可能性もある。高品質で多様な合成画像をコマンドで生成する能力は、面倒な費用やリソースを削減するのに役立つ可能性があるだろう。

特に、これまでのデータ収集のプロセスは決して簡単ではなかった。1990年代には、研究者たちは物体や顔のデータセットを組み立てるために手動で写真を撮影する必要があった。2000年代には、個人がインターネットからデータを探した。しかし、この生の未整理データは、実際のシナリオと比較して不一致が多く、社会的偏見を反映し、現実の歪んだ視点を提示することがあった。データセットを人間の介入によって選別する作業は、非常に高価であり、また極めて困難だ。この手間のかかるデータ収集を生成したデータで置き換えられるとしたら、その価値は計り知れないだろう。

「生成モデル学習のひとつの夢は、識別モデル学習に有用なデータを生成できるようになることです。いくつかの兆しは見えていましたが、特に高解像度画像のような大規模で複雑な領域では、その夢はなかなか実現しませんでした。この論文は、私の知る限り初めて、夢が現実になりつつあるという説得力のある証拠を示している。彼らは、大量の合成画像データからコントラスト学習を行うことで、実データから学習した表現よりも優れた表現を大規模に生成できることを示し、無数の下流視覚タスクを改善できる可能性を示しています」と、この研究には関与していないGoogle DeepMindの研究者であり、トロント大学のDavid Fleet教授は述べている。

StableRepの成功の重要な側面は、合成画像の多様性と忠実度の間の繊細なバランスを保証するために、生成モデルの「ガイダンススケール」を調整することにあるという。微調整された合成画像は、自己教師付きモデルのトレーニングに使用され、実画像と同等、あるいはそれ以上に効果的であることが判明した。

さらに、言語監督を追加することで、強化されたバージョンであるStableRep+が作成されている。2000万枚の合成画像でトレーニングされたStableRep+は、5000万枚の実画像でトレーニングされたCLIPモデルと比較して、優れた精度を達成し、顕著な効率を示しているとのことだ。

しかし、全てがバラ色というわけではない。現時点での問題としては、画像生成のペースが遅い事、テキストプロンプトと結果としての画像の間の意味的な不一致、偏見の可能性の増幅、画像帰属の複雑さなど、いくつかの制限がある。これらは、将来の進歩のために対処する必要がある重要な問題であると研究者らは認めている。また、StableRepは、最初に大規模な実データで生成モデルをトレーニングする必要があるため、その点で実データが全く不要になるわけではない。ただし、良い生成モデルがあれば、それを新しいタスク、例えば認識モデルや視覚表現のトレーニングに再利用することができるとのことだ。


論文

参考文献

研究の要旨

我々は、テキストから画像への変換モデルによって生成された合成画像を用いて、視覚表現を学習する可能性を調査する。これは、このようなモデルが高品質の画像を生成する上で優れた性能を発揮していることを考えれば、当然の疑問である。我々は特に、オープンソースの代表的なテキスト画像生成モデルの一つであるStable Diffusionについて検討する。我々は、(1)生成モデルが適切な分類器なしガイダンススケールで構成されている場合、合成画像に対する自己教師付き学習法は、実画像の対応に匹敵するか、凌駕することができること、(2)同じテキストプロンプトから生成された複数の画像を互いのポジとして扱うことで、StableRepと呼ぶマルチポジ対比学習法を開発することを示す。 合成画像のみを用いて、StableRepによって学習された表現は、大規模データセットにおいて、同じテキストプロンプトセットと対応する実画像を用いてSimCLRとCLIPによって学習された表現の性能を上回る。さらに言語監視を加えると、20Mの合成画像で学習したStableRepは、50Mの実画像で学習したCLIPよりも高い精度を達成する。



この記事が面白かったら是非シェアをお願いします!


  • aws skil builder
    次の記事

    Amazon、生成AIを無料で学べる「AI Ready」を提供、2025年までに200万人の受講を目指す

    2023年11月22日 6:23
  • 前の記事

    NASA、1600万kmの超長距離間レーザー通信に成功

    2023年11月21日 14:40
    laser beam m

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事