Facebookの親会社であるMetaは、テキストの説明文から短いビデオクリップを生成するツール「Make-A-Video」を発表した。
このツールは、7月に発表された、テキスト説明文から静止画を生成するツール「Make-A-Scene」に続くものだ。DALL・EやMidjourney、Stable Diffusionなど、ネットを席巻した同様のツールは数多くあるが、テキストから動画を生成するツールはMake-A-Videoが初めてで、間もなく一般公開される予定だ。
「ジェネレーティブAIの研究は、新しいコンテンツを迅速かつ容易に作成するツールを人々に提供することで、創造的表現を前進させています。”Make-A-Video”は、わずか数文字や数行のテキストで、想像力に命を吹き込み、鮮やかな色彩、キャラクター、風景に満ちた世界にひとつだけの動画を作成することができます。また、画像から動画を作成したり、既存の動画を取り込んで似たような動画を新たに作成することも可能です。」と、Metaはプレスリリースで述べている。
Meta CEOのMark Zuckerberg氏は、Facebookの投稿で「写真を生成するよりも動画を生成する方がはるかに難しい。なぜなら、それぞれのピクセルを正しく生成する以上に、システムはそれらが時間とともにどう変化するかも予測しなければならないからです。Make-A-Videoは、システムが物理世界の動きを理解し、それを従来のテキストから画像への生成に適用できるように教師なし学習の層を追加することでこれを解決しています。」と述べている。
Make-A-Videoのサイトにある作例では、“赤いマントのスーパーヒーローの服を着た犬が空を飛ぶ”、“テディベアが肖像画を描いている”という動画が紹介されている。この動画はAIが生成した画像特有のどこかぼやけた絵画的な質感が見られ、明らかにAIが生成した物であることが分かる。だが、ほんの数年前まではSFの世界であったAIアートシステムが、急速に進化していることがわかるだろう。
Metaは、AIアート生成システムの背後にある危険性を認識しているようで、「この生成AI研究と結果をコミュニティとオープンに共有してフィードバックを求め、責任あるAIフレームワークを使用して、この新しい技術へのアプローチを洗練し進化させ続ける」としている。
しかし、Make-A-Videoの研究論文によると、画像モデルはLAIONデータセットのサブセットを使って訓練されており、これは偏った結果を生み出すフィルターなしのウェブデータをスクレイピングすることで知られている。Metaは、58億枚以上のオリジナルデータセットを23億枚まで解析し、この問題に対処するようだ。論文の著者は、「NSFW画像、テキスト中の有害語、0.5より大きい透かし確率の画像を持つサンプルペアをフィルタアウトします」と主張している。
一方、AI倫理の研究者たちは、これらの大規模な言語モデルの使用に対して反発しており、その膨大なサイズによって、容易に解決できない有害なバイアスの根本的な問題が生じると警告している。Facebook自身の研究者でさえ、彼らの言語モデルが人種差別的で有害な結果を生み出す「高い傾向」を持っていることを認めている。
アーティストやクリエイターのためのツールとしてテキストから動画が生成出来る技術が導入されたことで、AIが生成したアートの利用が正当とみなされるべきかどうかという進行中の問題も複雑になっている。8月には、Jason Allenという男性がAIで生成した画像を使ってアートコンテストで優勝し、ネット上では、Allenがクリエイティブな仕事の死を早めていると非難され、激しい反発を招いた。
AIで生成された画像は、ShutterstockやGetty Imagesからも削除されつつある。Getty ImagesのCEOであるCraig Petersは、これは著作権に関する懸念があるためだと述べている。著作権やプライバシーポリシーは、AI画像システムの迅速な開発にまだ対応できておらず、AIアルゴリズムで使用されている画像は誰のものか、そしてそれらの画像を新しい画像に変換することは著作権侵害になるのか、多くの疑問が残されている。
Metaの発表は、OpenAIがDALL・E 2を広く公開した次の日に行われた。DALL・E 2を開発したOpenAIは最近、同システムのウェイティングを解除し、誰でもテキストプロンプトから画像を生成できるようにした。しかし、一般の人々がより多くのAIアート生成ツールにアクセスできるようになっても、その使用に関する最も基本的な倫理的問題のいくつかは未解決のままだ。
Sources
- Meta: Make-A-Video
- Venture Beat: Meta’s new Make-a-Video signals the next generative AI evolution
コメントを残す