OpenAIの動画生成AI「Sora」は驚くほど“まとも”な動画を生成する能力を見せてくれる

masapoco
投稿日 2024年2月16日 6:30

ChatGPTでAIチャットボットの可能性を切り拓いたOpenAIは、MetaやGoogle、そしてRunwayなどのスタートアップが既に先行する動画生成AIの分野に遅まきながら参入した。だが、OpenAIが今回披露した「Sora」は、これまで他社が発表していたAIモデルの成果物とは一線を画す、まさに「AIが生成したとは思えない」レベルの動画を生成する能力を有しているようだ。

プロンプト「A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.」から生成された動画 (Credit: OpenAI)

OpenAIが今回発表した「Sora」は、「テキストの指示からリアルで想像力豊かなシーンを作成できる」ものであり、ユーザーが書いたプロンプトに基づいて、1分までの写実的なビデオを作成することができる。

Soraは、その発表の中で印象的な機能の数々を披露しており、前例のないレベルの視覚的忠実さと、時間的安定性を誇る能力を見せつけた。上の動画などは、映像に全く破綻がなく、このモデルの素晴らしい映像の安定性を示している。

プロンプト「A cartoon kangaroo disco dances.」から生成された動画 (Credit: OpenAI)

OpenAIのブログ投稿によると、Soraは「複数のキャラクター、特定の種類の動き、被写体と背景の正確な詳細を持つ複雑なシーン」を作成することができるとのことだ。同社はまた、このモデルは物体が「物理的な世界にどのように存在するか」を理解し、「小道具を正確に解釈し、生き生きとした感情を表現する魅力的なキャラクターを生成できる」とも述べている。

プロンプト「Reflections in the window of a train traveling through the Tokyo suburbs.」から生成された動画 (Credit: OpenAI)

このAIモデルは現在、被害とリスク評価のために、潜在的な害やリスクについてモデルを評価する「レッドチーム」の選ばれたグループに提供されている。また、クリエイティブな専門家のための実用性を向上させるためのフィードバックを希望するビジュアルアーティスト、デザイナー、映画制作者にも提供されているとのことだ。

OpenAIによれば、Soraの現在の限界は、複雑な物理学を正確にシミュレートすることや、特定の因果関係のシナリオをキャプチャすることの難しさにあるという。例えば、キャラクターがクッキーをかじっても、視覚的な影響(かじった跡)が残らない可能性がある。Soraはまた、左右の区別など空間的な詳細が苦手だったり、カメラの軌跡を追うなど、時間の経過に伴う出来事の詳細な描写に苦労することもあるようだ。

安全性に関しては、OpenAIはSoraを製品に統合する前にいくつかの戦略を実施している。これには、レッドチームとの協力や、映像がSoraによって生成されたものであることを識別するための検出分類器などのツールの開発が含まれる。将来的には、このモデルがOpenAI製品で使用されることを前提に、C2PAのメタデータを含めることを目指している。DALL-E 3で確立されたセキュリティ手法に基づき、OpenAIはコンテンツポリシーに違反するプロンプトをチェックするためにテキスト分類器を使用し、使用ポリシーに準拠していることを確認するためにビデオフレームをチェックするために画像分類器を使用することを計画している。

Soraは、静的でノイズの多い動画を徐々に鮮明な画像に変換するDiffusion model(拡散モデル)である。動画をGPTのトークンに似たデータパッチの集まりとして表現することで、このモデルは従来よりも幅広い映像データを扱うことができるという。DALL-E 3のリキャプション技術を活用することで、Soraは生成された動画内のテキスト命令をより忠実に実行できる。Soraの生成における時間的安定性は、”モデルが一度に何フレームも先を見ることができる”ことで実現されているとのことだ。

OpenAIは、Soraを「現実世界を理解し、シミュレートすることができる」基礎的なモデルであり、人工知能(AGI)の実現に向けた重要なステップであると考えている。


Sources



この記事が面白かったら是非シェアをお願いします!


  • 次の記事

    世界初、メタマテリアルを用いて“真の一方通行ガラス”の開発に成功

    2024年2月16日 7:02
  • 前の記事

    Google、桁違いのコンテキストウィンドウを備えた「Gemini 1.5」を発表

    2024年2月16日 5:48

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事