Google、生成AIを使い「バーチャル試着」を実現

Googleは、Googleショッピングの幅広いアップデートの一環として、生成AIによって、取り込んだ衣類画像を、さまざまなポーズをとった実際のモデルに実際に着させて、衣類のドレープ、折り目、密着、伸び、シワや影のでき方を予測することまで出来るというアパレル向け「バーチャル試着ツール」を発表した。

バーチャル試着は、Googleが内部で開発した新しい拡散ベースのモデルによって実現されている。拡散モデルとは、テキストからアートへの変換を行うStable DiffusionやDALL-E 2と同様のアプローチによるもので、ノイズのみで構成されたスタート画像から徐々にノイズを減算し、目標に一歩一歩近づけていくことを学習する。

例えば、シャツを着た人が横向きに立っている画像と、前向きに立っている画像など、2種類のポーズで服を着た人が写っている画像のペアを多数使って、Googleはモデルを学習させた。さらに、このモデルをより強固なものにするため（つまり、折り目の形が崩れて不自然に見えるなどの視覚的な欠陥に対処するため）、衣服と人物のランダムな画像ペアを使用してこのプロセスを繰り返した。

本日より、Googleショッピングをご利用のお客様は、Anthropologie、Everlane、H&M、LOFTなどのブランドの女性用トップスを仮想的に試着することが出来るとのことだ。Google検索で新しい「試着」バッジをお探しください。男性用トップスは年内に発売される予定だ。

バーチャル試着技術は、新しいものではない。AmazonやAdobeは以前からアパレル商品のジェネレーティブ・モデリングを試しており、Walmartも昨年から、顧客の写真を使って服をモデリングするオンライン機能を提供している。AIスタートアップのAIMIRRは、このアイデアをさらに一歩進め、リアルタイムの衣服レンダリング技術を使って、人物のライブ映像に衣服の画像を重ね合わせている。

Google自身も過去にバーチャル試着技術を試験的に導入しており、L’Oréal、Estée Lauder、MAC Cosmetics、Black Opal、Charlotte Tilburyと共同で、検索ユーザーがさまざまな肌色のモデルを使って化粧品の色合いを試せるようにした。

しかし、生成AIがファッション業界をますます侵食するにつれ、長年の不平等を悪化させるというモデルからの反発も出てきている。

Levisは、カスタマイズされたAI生成モデルを作成するためにAI技術をテストしたが一部では反発もあった。その後Levisはインタビューでこの技術を擁護し、「買い物客が商品を着ているのを見ることができるモデルの多様性が増す」と述べている。

Googleはブログの中で、本物のモデルを起用したことを強調し、しかも、さまざまな人種、肌の色、体型、髪質を持つXXSから4XLサイズに及ぶ多様なモデルを起用したとしている。

Googleは、バーチャル試着の展開と同時に、AIとビジュアルマッチングアルゴリズムを活用した衣料品検索のフィルタリングを開始する。このフィルターは、ショッピングの商品リスト内で利用でき、ユーザーは色、スタイル、パターンなどの入力により、店舗間の検索を絞り込むことが可能だ。

Googleは、「店舗では、アソシエイトが、あなたがすでに試着したものをもとに、他の選択肢を提案したり、見つけたりして、これをサポートすることができます」と述べている。「今、あなたはオンラインで服を買うとき、その特別な手を借りることができます」。

論文

Google: TryOnDiffusion:A Tale of Two UNets (PDF)

参考文献

TryOnDiffusion: A Tale of Two UNets
Google The Keyword:
- Virtually try on clothes with a new AI shopping feature
- How AI makes virtual try-on more realistic

研究の要旨

ある人物と別の人物が着用する衣服が描かれた2つの画像が与えられたとき、その衣服が入力された人物にどのように見えるかを視覚化することが目標である。主な課題は、被写体によって大きく変化する体のポーズや形状に対応するために衣服を歪ませながら、ディテールを維持したフォトリアリスティックな視覚化を合成することである。これまでの手法では、効果的なポーズや形状の変化を伴わない衣服の詳細保持に重点を置くか、希望する形状やポーズでの試着は可能だが衣服の詳細が欠落している。本論文では、2つのUNetを統合した拡散ベースのアーキテクチャ（Parallel-UNetと呼ぶ）を提案し、これにより、1つのネットワークで衣服の詳細を保存し、大きなポーズと体の変化に対して衣服をワープさせることができます。Parallel-UNetの主要な考え方は以下の通りです：1) 衣服の歪みは、クロスアテンションメカニズムによって暗黙のうちに行われる 2) 衣服の歪みと人物のブレンドは、2つの別々のタスクのシーケンスではなく、統一されたプロセスの一部として行われる実験結果は、TryOnDiffusionが質的にも量的にも最先端の性能を達成したことを示しています。