AIによって生成された画像でAIを効率的にトレーニングする画期的な手法が開発された

AIトレーニングに用いる学習データの枯渇が叫ばれる中、MITの研究者らはテキストから画像を生成するシステムを用いて生成した合成画像を用いて機械学習モデルをトレーニングする「StableRep」と呼ばれる方法を開発した。この画期的なアプローチは、従来の“実在する画像”を用いて行うよりも良好な結果を得られるという。

StableRepの秘密は、「マルチポジティブ対照学習」という戦略にある。MITの電気工学の博士課程学生であり、MITコンピュータ科学・人工知能研究所（CSAIL）の研究員であるLijie Fan氏によると、このアプローチでは、同じテキストから生成された複数の画像を、同じ基礎となるものの表現として扱い、モデルに画像の背後にある概念をより深く学習させることを目指しているとのことだ。

このアプローチでは、同一のテキストプロンプトから生成された複数の画像を正のペアとして扱い、トレーニング中に追加情報を提供する。これにより、視覚システムにどの画像が似ていて、どの画像が異なるかを指定することができる。驚くべきことに、StableRepは、実画像でトレーニングされたトップティアモデル、例えばSimCLRやCLIPを、広範なデータセットで上回っている。

「最新のテキストから画像への変換モデルを使用することで、画像生成においてこれまでにない制御が可能になり、1つのテキスト入力から多様なビジュアルを得ることができるようになりました。これは、効率性と汎用性において、現実の画像収集を凌ぐものです。これは、ロングテール認識における画像の多様性のバランスのような特殊なタスクにおいて特に有用であり、トレーニングに実画像を使用することの実用的な補足となります。我々の研究は、データの質と合成における継続的な改善の必要性を強調しながら、費用対効果の高いトレーニング代替手段を提供するという目標に向けて、視覚学習における一歩前進を意味します」と、Fan氏は言う。

StableRepは、機械学習におけるデータ取得の課題を軽減するだけでなく、AIトレーニング技術を新たな段階に引き上げる可能性もある。高品質で多様な合成画像をコマンドで生成する能力は、面倒な費用やリソースを削減するのに役立つ可能性があるだろう。

特に、これまでのデータ収集のプロセスは決して簡単ではなかった。1990年代には、研究者たちは物体や顔のデータセットを組み立てるために手動で写真を撮影する必要があった。2000年代には、個人がインターネットからデータを探した。しかし、この生の未整理データは、実際のシナリオと比較して不一致が多く、社会的偏見を反映し、現実の歪んだ視点を提示することがあった。データセットを人間の介入によって選別する作業は、非常に高価であり、また極めて困難だ。この手間のかかるデータ収集を生成したデータで置き換えられるとしたら、その価値は計り知れないだろう。

「生成モデル学習のひとつの夢は、識別モデル学習に有用なデータを生成できるようになることです。いくつかの兆しは見えていましたが、特に高解像度画像のような大規模で複雑な領域では、その夢はなかなか実現しませんでした。この論文は、私の知る限り初めて、夢が現実になりつつあるという説得力のある証拠を示している。彼らは、大量の合成画像データからコントラスト学習を行うことで、実データから学習した表現よりも優れた表現を大規模に生成できることを示し、無数の下流視覚タスクを改善できる可能性を示しています」と、この研究には関与していないGoogle DeepMindの研究者であり、トロント大学のDavid Fleet教授は述べている。

StableRepの成功の重要な側面は、合成画像の多様性と忠実度の間の繊細なバランスを保証するために、生成モデルの「ガイダンススケール」を調整することにあるという。微調整された合成画像は、自己教師付きモデルのトレーニングに使用され、実画像と同等、あるいはそれ以上に効果的であることが判明した。

さらに、言語監督を追加することで、強化されたバージョンであるStableRep+が作成されている。2000万枚の合成画像でトレーニングされたStableRep+は、5000万枚の実画像でトレーニングされたCLIPモデルと比較して、優れた精度を達成し、顕著な効率を示しているとのことだ。

しかし、全てがバラ色というわけではない。現時点での問題としては、画像生成のペースが遅い事、テキストプロンプトと結果としての画像の間の意味的な不一致、偏見の可能性の増幅、画像帰属の複雑さなど、いくつかの制限がある。これらは、将来の進歩のために対処する必要がある重要な問題であると研究者らは認めている。また、StableRepは、最初に大規模な実データで生成モデルをトレーニングする必要があるため、その点で実データが全く不要になるわけではない。ただし、良い生成モデルがあれば、それを新しいタスク、例えば認識モデルや視覚表現のトレーニングに再利用することができるとのことだ。

論文

arXiv: StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

参考文献

MIT News: Synthetic imagery sets new bar in AI training efficiency

研究の要旨

我々は、テキストから画像への変換モデルによって生成された合成画像を用いて、視覚表現を学習する可能性を調査する。これは、このようなモデルが高品質の画像を生成する上で優れた性能を発揮していることを考えれば、当然の疑問である。我々は特に、オープンソースの代表的なテキスト画像生成モデルの一つであるStable Diffusionについて検討する。我々は、(1)生成モデルが適切な分類器なしガイダンススケールで構成されている場合、合成画像に対する自己教師付き学習法は、実画像の対応に匹敵するか、凌駕することができること、(2)同じテキストプロンプトから生成された複数の画像を互いのポジとして扱うことで、StableRepと呼ぶマルチポジ対比学習法を開発することを示す。合成画像のみを用いて、StableRepによって学習された表現は、大規模データセットにおいて、同じテキストプロンプトセットと対応する実画像を用いてSimCLRとCLIPによって学習された表現の性能を上回る。さらに言語監視を加えると、20Mの合成画像で学習したStableRepは、50Mの実画像で学習したCLIPよりも高い精度を達成する。