ChatGPTでAIチャットボットの可能性を切り拓いたOpenAIは、MetaやGoogle、そしてRunwayなどのスタートアップが既に先行する動画生成AIの分野に遅まきながら参入した。だが、OpenAIが今回披露した「Sora」は、これまで他社が発表していたAIモデルの成果物とは一線を画す、まさに「AIが生成したとは思えない」レベルの動画を生成する能力を有しているようだ。
OpenAIが今回発表した「Sora」は、「テキストの指示からリアルで想像力豊かなシーンを作成できる」ものであり、ユーザーが書いたプロンプトに基づいて、1分までの写実的なビデオを作成することができる。
Soraは、その発表の中で印象的な機能の数々を披露しており、前例のないレベルの視覚的忠実さと、時間的安定性を誇る能力を見せつけた。上の動画などは、映像に全く破綻がなく、このモデルの素晴らしい映像の安定性を示している。
OpenAIのブログ投稿によると、Soraは「複数のキャラクター、特定の種類の動き、被写体と背景の正確な詳細を持つ複雑なシーン」を作成することができるとのことだ。同社はまた、このモデルは物体が「物理的な世界にどのように存在するか」を理解し、「小道具を正確に解釈し、生き生きとした感情を表現する魅力的なキャラクターを生成できる」とも述べている。
このAIモデルは現在、被害とリスク評価のために、潜在的な害やリスクについてモデルを評価する「レッドチーム」の選ばれたグループに提供されている。また、クリエイティブな専門家のための実用性を向上させるためのフィードバックを希望するビジュアルアーティスト、デザイナー、映画制作者にも提供されているとのことだ。
OpenAIによれば、Soraの現在の限界は、複雑な物理学を正確にシミュレートすることや、特定の因果関係のシナリオをキャプチャすることの難しさにあるという。例えば、キャラクターがクッキーをかじっても、視覚的な影響(かじった跡)が残らない可能性がある。Soraはまた、左右の区別など空間的な詳細が苦手だったり、カメラの軌跡を追うなど、時間の経過に伴う出来事の詳細な描写に苦労することもあるようだ。
安全性に関しては、OpenAIはSoraを製品に統合する前にいくつかの戦略を実施している。これには、レッドチームとの協力や、映像がSoraによって生成されたものであることを識別するための検出分類器などのツールの開発が含まれる。将来的には、このモデルがOpenAI製品で使用されることを前提に、C2PAのメタデータを含めることを目指している。DALL-E 3で確立されたセキュリティ手法に基づき、OpenAIはコンテンツポリシーに違反するプロンプトをチェックするためにテキスト分類器を使用し、使用ポリシーに準拠していることを確認するためにビデオフレームをチェックするために画像分類器を使用することを計画している。
Soraは、静的でノイズの多い動画を徐々に鮮明な画像に変換するDiffusion model(拡散モデル)である。動画をGPTのトークンに似たデータパッチの集まりとして表現することで、このモデルは従来よりも幅広い映像データを扱うことができるという。DALL-E 3のリキャプション技術を活用することで、Soraは生成された動画内のテキスト命令をより忠実に実行できる。Soraの生成における時間的安定性は、”モデルが一度に何フレームも先を見ることができる”ことで実現されているとのことだ。
OpenAIは、Soraを「現実世界を理解し、シミュレートすることができる」基礎的なモデルであり、人工知能(AGI)の実現に向けた重要なステップであると考えている。
Sources
- OpenAI: Creating video from text
コメントを残す