テキストからの画像生成を2秒未満の超高速で、しかもスマホで処理できる新たな手法「SnapFusion」をSnapが発表

2022年に人気が爆発した、テキストプロンプトから画像を生成するMidjouneyや、Stable Diffusion、DALL･Eなどは、最近の進化も相まって素晴らしい成果を上げるようになっているが、出力まで時間がかかったり、そもそもこうした生成AIは莫大なコンピュートリソース（特にGPUによる処理）を利用する事が挙げられる。

Snapchatの親会社であるSnapは、同社のSnap Research部門が、こうした生成AIによる画像生成の処理を軽量化し、時間を早める新たな手法「SnapFusion」を考案したと発表した。

Snapはブログ記事で、SnapFusionにより、生成AIによる画像の作成時間を2秒未満に短縮出来ると述べている。これは”学術界がこれまでに発表した中で最速の時間である“と、同社は謳っている。しかも、その処理ををモバイルデバイス上で完結できるとしている。

Snap Researchは、ネットワークアーキテクチャとノイズ除去プロセスを最適化し、画質を維持しながら信じられないほど効率的にすることで、このブレークスルーを達成しました。そのため、テキストプロンプトに基づいて画像を生成するモデルを実行し、他の研究が提示するような数分や数時間ではなく、モバイルでわずか数秒で鮮明な画像を取り戻すことができるようになりました。

研究論文では、SnapFusionの詳細と、新しい技術で作成されたアートワークの例を多数紹介している。

具体的には、オリジナルモデルの冗長性を特定し、データ蒸留によって画像デコーダの計算を削減することで、効率的なUNetを提案します。さらに、学習ストラテジーを探求し、分類器なしのガイダンスから正則化を導入することで、ステップ蒸留を強化します。

ただし、Snapはこの新しい手法が一般に利用可能になるまでにはまだ時間がかかると指摘している。しかし、「将来的にモバイルでの高品質な生成AI体験を超高速化する可能性がある」と、同社は期待を煽る発表を行っている。この新しい手法は、Snapchatのモバイルアプリの将来のアップデートに追加される可能性があるようだ。オープンソースでの公開などは明らかにされていない。

論文

arXiv: SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds

参考文献

Snapchat: Snap Research Introduces a New Text-to-Image Diffusion Model for Generative AI
bbb

研究の要旨

テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵するような素晴らしい画像を、自然な言語記述から作り出すことが出来る。しかし、これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十回のノイズ除去の繰り返しがあるため、計算コストが高く、実行に時間がかかる。そのため、拡散モデルを大規模に実行するには、ハイエンドGPUとクラウドベースの推論が必要となる。これはコストが高く、特にユーザーデータが第三者に送信される場合、プライバシーに関わる問題だ。これらの課題を克服するために、我々は、モバイルデバイス上でテキストから画像への拡散モデルを実行することを初めて可能にする、汎用的なアプローチを提示する。