Meta、外国語を自分の声で話せる生成AI「Voicebox」を発表

masapoco
投稿日 2023年6月17日 6:41
voicebox meta

Metaは昨日のI-JEPA、先月のImageBindに続き新たなAIモデル「Voicebox」を発表した。このVoiceboxは、音声編集、サンプリング、スタイリングなどの音声生成タスクを、文脈内学習によって特に訓練されていない場合でも実行できる能力を持ち、クリエイターを支援するために設計されている。

Metaは、この新しいAIモデルが世界中の多くの人にメリットをもたらすとアピールし、視覚障害者が友人からの筆談メッセージを声で聞くことを支援したり、外国語を自分の声で話せるようにするなどの例を挙げている。

Voiceboxはそれ自体が様々な機能を持ち、高品質な音声を作成することや、音声の内容やスタイルを維持したまま録音された音声を編集して言い間違いを修正したり、犬の鳴き声や大きな空調の音などの不要な音を除去することなどを行うことができ、更に内容を6カ国語の音声に変換する事などが可能だ。将来的には、ビジュアルアシスタントやメタバースゲーム中のノンプレイヤーキャラクターなどに自然な音声を提供することも想定している。

Metaは、Voiceboxを他の音声AIモデルと比較し、特にVall-EとYourTTSを競合として挙げ、Wordエラー率とStyle類似度を比較している。結果として、Voiceboxがより高度で両モデルを凌駕することを実証している。

Voiceboxは、Metaの最新の非自己回帰的生成モデルであるFlow Matchingモデルをベースに構築されており、テキストと音声の間の非決定性の高いマッピングを学習することができるため、Voiceboxは様々な音声データから学習し、慎重にラベル付けする必要がなく、より多様で大規模なデータを得ることができるという。

Voiceboxは、これまでに英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語のパブリックドメインオーディオブックの録音音声とトランスクリプトを5万時間以上学習しており、周囲の音声とそのトランスクリプトが与えられた場合に音声セグメントを予測することも可能だ。

ただしMetaは、この技術が音声のための生成AIの新しい時代をもたらすことができる一方で、誤用や意図しない害をもたらす可能性がある事も警告している。

Metaが発表するVoiceboxに関する研究論文では、本物の音声とVoiceboxで生成された音声を区別できる、非常に効果的な分類器を構築した方法について詳しく説明する予定だ。

なお、Metaは、AIプログラムそのものを一般に公開することはなく、ソースコードも公開しない予定だ。デモはこちらのページでご覧頂くことが可能だ。


論文

参考文献

研究の要旨

GPTやDALL-Eのような大規模な生成モデルは、自然言語処理とコンピュータビジョンの研究に革命をもたらした。これらのモデルは、忠実度の高いテキストや画像の出力を生成するだけでなく、明示的に教示されていないタスクを解決することができる汎化能力を持っている。これに対し、音声生成モデルは、規模やタスクの汎化という点で、まだ原始的なものである。本論文では、最も汎用性の高いテキストガイド付き音声生成モデルであるVoiceboxをスケールアップして紹介する。Voiceboxは、音声コンテキストとテキストが与えられた場合に、音声を埋め込むように訓練された非自己回帰的フローマッチングモデルであり、フィルタリングも拡張もされていない5万時間以上の音声で訓練されている。GPTと同様に、Voiceboxはコンテキスト内の学習によって様々なタスクを実行できるが、将来のコンテキストを条件とすることもできるため、より柔軟性がある。Voiceboxは、モノラルまたはクロスリンガルのゼロショット音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用することが出来る。特に、Voiceboxは、最新鋭のゼロショットTTSモデルVALL-Eを、最大20倍高速化しながら、明瞭度(単語エラー率5.9%対1.9%)と音声類似度(0.580対0.681)の双方で上回っている。モデルのデモはvoicebox.metademolab.comをご覧いただきたい。



この記事が面白かったら是非シェアをお願いします!


  • speedstar whitedwarf
    次の記事

    時速822万kmで宇宙を暴走するこれまでで最速の星が見つかる

    2023年6月17日 10:34
  • 前の記事

    Google、ドメイン管理事業をSquarespaceに売却

    2023年6月17日 5:59
    google search display

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事