OpenAIは、画像生成AIの最新バージョンである「DALL·E 3」を発表した。新たなシステムは、ChatGPTとネイティブに統合され、これまでのものよりもかなり多くのニュアンスやディテールを理解できるようになっており、同社によれば「プロンプトエンジニアリングが必要ない」とのことだ。
入力されたテキストを忠実に理解する
「最近のテキスト画像変換システムは、単語や説明を無視する傾向があり、ユーザーはプロンプトエンジニアリングを学ぶことを余儀なくされています。DALL·E 3は、ユーザーが入力したテキストに忠実な画像を生成する我々の能力を飛躍的に向上させるものです」と、OpenAIはその地味ながらも大きな進歩を説明する。
DALL·E 3では、ChatGPTを使ってプロンプトの入力を支援してくれるようになっている。ChatGPTは、数語程度の短いプロンプトをより説明的にし、DALL-E 3モデルにより多くのガイダンスを提供してくれる。
また、プロンプトをより正確に反映し、より高品質な画像を生成するとOpenAIは述べている。また、テキストや人の手のような、これまで画像生成モデルがつまづいていたコンテンツをよりうまく処理できるようになっている。
DALL·E 3は、DALL·E 2や他の画像生成システムと同様に、芸術的な抽象画からコミック本のドローイング、フォトリアリズムまで、様々なスタイルをサポートしている。例えば以下の画像は、「海底に沈む古代の難破船の写真。海草が木造の構造物を占領し、魚がその空洞を出たり入ったりしている。沈没した財宝や古い大砲が散乱し、過去を垣間見ることができる」というプロンプトから生成された。
そして、同じプロンプトでも、以下に示すように大幅にその出力が改善されることが見て取れるだろう。
加えて大きな変更としては、DALL·E 3が有料のChatGPT Plusユーザー向けのChatGPTアプリになることだ。OpenAIによると、ChatGPTはDALL·E 3のプロンプトパートナーとして、ブレーンストーミングやプロンプトの最適化に役立てることができるという。
出来上がった画像が意図したものに近いが正確ではない場合、ユーザーはChatGPTに変更点を伝えることで修正することができる。OpenAIによれば、この会話型画像生成は、複雑なプロンプトの必要性を減らすはずだという。同社は、複雑な”プロンプト・エンジニアリング”はもはや必要ないとしている。
OpenAIによると、DALL·E 3によって生成されたすべての画像の所有権は、クリエイターに帰属するとのことだ。画像は再利用、マーケティング、販売が可能となる。
ChatGPT-Plus, ChatGPT Enterprise, API経由でのDALL·E 3のローンチは10月を予定している。DALL·E 2と同様のOpenAI Labs経由のDALL·E 3のスタンドアロンバージョンは、この秋以降に続く予定だ。
OpenAIはアーティストに作品のオプトアウトを提案
既存の画像システムと比較して大きな変更点であり制限事項となっているのは、DALL·E 3が存命のアーティストの名前を含むプロンプトを拒否することだ。これは、システムにスタイルの方向性を与えるために、他の画像システムでよく使われる方法である。
「DALL·E 3は、存命のアーティストのスタイルの画像を要求するリクエストを拒否するように設計されています。クリエイターは、将来の画像生成モデルのトレーニングから自分の画像を除外することもできるようになりました」と、同社は述べている。
さらに、アーティストには、将来OpenAIの画像モデルのトレーニングから自分の画像を除外するオプションが提案される。これは、DALL·E 3がまだこれらのアーティストの作品でトレーニングされていることを意味し、さらなる著作権の議論につながる可能性がある。OpenAIは、オプトアウト期間の後、DALL·E 3のアップデート版を提供することも行う事ができる。
OpenAIは、視覚的な過不足やプロパガンダへの悪用など、こうしたリスクやその他のリスクにレッドチーム技術で対処する計画だ。OpenAIはまた、画像がDALL·E 3で生成されたかどうかを検出できるツールを社内でテストしている。
Source
- OpenAI: DALL·E 3
コメントを残す