OpenAIの「Sora」による動画生成は軽食が摂れるほど時間がかかる

OpenAIが先日公開したテキストによる動画生成AIモデル「Sora」は非常に印象的な結果を提示したが、OpenAIはまだ正確なリリーススケジュールを決めていないようだ。

Bloombergによると、OpenAIがSoraのリリースを急いでいない理由は、今年が類を見ない選挙イヤーである事から、ディープフェイクが巻き起こす混乱などによる安全上のリスクを取りたくないこと。もうひとつは、このモデルが技術的にまだリリースできる状態にないことが挙げられるという。

Bloombergは独占的にSoraを試す機会が与えられ、OpenAIに4つのプロンプトを提示し動画を生成するように依頼したが、結果としてOpenAIは研究者の時間的制約のため2つの動画しか生成出来なかったと報告している。このことは、生成プロセスが長かったり未熟だったりすることを示唆している。

「Soraは依然として研究プロジェクトであり、アクセスできる人はごくわずかで、OpenAIとのプライベートデモでは、ツールに明確な制限があった」とBloombergは述べている。

OpenAIがSoraを発表した際、同社はモデルの物理的な理解と一貫性に欠点があると指摘した。実際この欠陥はBloombergのテストでも見られた物で、オウムが猿の横を通過するときに翼が歪んだり、Bloombergが提示したプロンプトには1羽のオウムの描写が書かれていたが、数羽のオウムが描かれていること、そして最後のほうでは、オウムが猿に変わってしまっているように見えている事が確認出来る。

?Exclusive!?@shiringhaffary and I got @OpenAI's Sora team to generate some videos from our prompts, including a parrot flying through the jungle and eating fruit with monkeys — a clip that shows off the project's strengths and weaknesses. gift link:https://t.co/NFeMMAmVzm pic.twitter.com/qn0mQvd9D5
— Rachel Metz (@rachelmetz) February 23, 2024

OpenAIのリサーチ・サイエンティスト、Bill Peebles氏はこう語る。「映像のいろいろな場面で、奇妙な動きが見られるでしょう。しかし、Soraがこのレベルの複雑なシーンをモデル化できるということは、映像生成能力が明らかに飛躍していることを示しています」。

OpenAIはSoraの実行スピードについて詳細を明らかにしていない。しかし、OpenAIのDall-E 3を使って1つの画像を生成するのに必要なものよりも、各動画を生成するのに必要な時間とコンピューティング・パワーは明らかに多くを必要とする。Peebles氏は今のところ、ビデオの生成にかかる時間は、軽食を済ませることが出来る程であると述べている。

Soraは現在レッドチームの段階にあり、選ばれたアーティスト、映画制作者、デザイナーがこのシステムにアクセスできるようになっている。これは、このモデルが発表された際にOpenAIによって発表された。

OpenAIのモデル展開計画を見ると、これは「評価と反復的開発」フェーズのようだ。次のステップは、プライベートベータ、ユースケースパイロット、さらなる安全性テストといった段階的なロールアウトフェーズとなるだろう。