Stability AI、手書きスケッチから高品質な画像を生成するツール「Stable Doodle」をリリース

画像生成AI「Stable Diffusion」で有名なAIスタートアップ Stability AI は、ユーザーが描いた簡単なスケッチを元にして、高品質な画像を生成し出力する、“スケッチ・トゥ・イメージ”ツールである、「Stable Doodle」を発表した。

Blog Assets 04.png — (Credit: Stability AI)

Blog Assets 07.png — (Credit: Stability AI)

AIベースの画像編集プラットフォームClipdropとStability AIによって開発されたStable Doodleは、最新のStable拡散モデルSDXL 0.9とともに、Clipdrop by Stability AIのWebサイトから無料でアクセスできる。これは、Clipdropの開発元であるInit MLをStability AIが買収した事により実現したものだ。

Stable Doodleは、AIツールに精通しているいないに関わらず、経験豊富なユーザーと初心者の両方に対応できるように設計されている。Stable Doodleのパワーを活用することで、基本的な描画スキルとインターネットアクセスがあれば、誰でも数秒以内に高品質のオリジナル画像を作成することができるとのことだ。

Stable Doodleは、Stable Diffusion XLを通じて14種類のスタイルから選択でき、アーティスティックなカスタマイズが可能だ。これらのスタイルは、リアルな写真から映画のような美学、想像力豊かなファンタジーアート、折り紙にインスパイアされたデザインまで多岐に渡る。

Stable Doodleの仕組み

Stable Doodleは、Stability AIのStable Diffusion XLの画像生成技術と、強力なT2I-Adapterを組み合わせたものだ。Tencent ARC（ライセンス）が開発したT2I-Adapterは、AIの画像生成を強化する精密なコンディションコントロールソリューションである。

既存の大規模拡散モデルに学習可能なパラメータを導入することで、T2I-Adapterはスケッチ、セグメンテーションマップ、キーポーズなどの追加入力条件を組み込むことを可能にする。

このフレームワークは、入力ガイダンスのための複数のモデルを同時にサポートし、生成プロセスの制御を強化する。Stable Doodleでは、T2I-Adapterは、事前に学習されたテキスト画像モデル（SDXL）を補完し、スケッチの輪郭を理解し、定義された輪郭と組み合わせたプロンプトに基づいて画像を生成することを可能にする。

T2I-Adapterネットワークは約7,700万個のパラメータで構成され、元の大規模なテキスト画像モデルの完全性を維持しながら、事前に訓練されたテキスト画像（SDXL）モデルに追加のガイダンスを提供する。

Clipdropを試す

StableDoodleは、ClipDropのWebサイトおよびAndroidとiOS用のスマートフォンアプリで無料で試用可能だ。ただし、透かしなしの画像ダウンロードは、プロメンバーシップでのみ利用できる。

基本的に、このツールはアマチュアとプロの両方を対象としており、Stability AIによると、教育からクリエイティブなデザインまで、さまざまな業界を大幅に改善する可能性を秘めている。

Sources

Stability AI: Clipdrop Launches Stable Doodle