Meta、外国語を自分の声で話せる生成AI「Voicebox」を発表

Metaは昨日のI-JEPA、先月のImageBindに続き新たなAIモデル「Voicebox」を発表した。このVoiceboxは、音声編集、サンプリング、スタイリングなどの音声生成タスクを、文脈内学習によって特に訓練されていない場合でも実行できる能力を持ち、クリエイターを支援するために設計されている。

Metaは、この新しいAIモデルが世界中の多くの人にメリットをもたらすとアピールし、視覚障害者が友人からの筆談メッセージを声で聞くことを支援したり、外国語を自分の声で話せるようにするなどの例を挙げている。

Voiceboxはそれ自体が様々な機能を持ち、高品質な音声を作成することや、音声の内容やスタイルを維持したまま録音された音声を編集して言い間違いを修正したり、犬の鳴き声や大きな空調の音などの不要な音を除去することなどを行うことができ、更に内容を6カ国語の音声に変換する事などが可能だ。将来的には、ビジュアルアシスタントやメタバースゲーム中のノンプレイヤーキャラクターなどに自然な音声を提供することも想定している。

Metaは、Voiceboxを他の音声AIモデルと比較し、特にVall-EとYourTTSを競合として挙げ、Wordエラー率とStyle類似度を比較している。結果として、Voiceboxがより高度で両モデルを凌駕することを実証している。

Voiceboxは、Metaの最新の非自己回帰的生成モデルであるFlow Matchingモデルをベースに構築されており、テキストと音声の間の非決定性の高いマッピングを学習することができるため、Voiceboxは様々な音声データから学習し、慎重にラベル付けする必要がなく、より多様で大規模なデータを得ることができるという。

Voiceboxは、これまでに英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語のパブリックドメインオーディオブックの録音音声とトランスクリプトを5万時間以上学習しており、周囲の音声とそのトランスクリプトが与えられた場合に音声セグメントを予測することも可能だ。

ただしMetaは、この技術が音声のための生成AIの新しい時代をもたらすことができる一方で、誤用や意図しない害をもたらす可能性がある事も警告している。

Metaが発表するVoiceboxに関する研究論文では、本物の音声とVoiceboxで生成された音声を区別できる、非常に効果的な分類器を構築した方法について詳しく説明する予定だ。

なお、Metaは、AIプログラムそのものを一般に公開することはなく、ソースコードも公開しない予定だ。デモはこちらのページでご覧頂くことが可能だ。

論文

Meta: Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

参考文献

研究の要旨

GPTやDALL-Eのような大規模な生成モデルは、自然言語処理とコンピュータビジョンの研究に革命をもたらした。これらのモデルは、忠実度の高いテキストや画像の出力を生成するだけでなく、明示的に教示されていないタスクを解決することができる汎化能力を持っている。これに対し、音声生成モデルは、規模やタスクの汎化という点で、まだ原始的なものである。本論文では、最も汎用性の高いテキストガイド付き音声生成モデルであるVoiceboxをスケールアップして紹介する。Voiceboxは、音声コンテキストとテキストが与えられた場合に、音声を埋め込むように訓練された非自己回帰的フローマッチングモデルであり、フィルタリングも拡張もされていない5万時間以上の音声で訓練されている。GPTと同様に、Voiceboxはコンテキスト内の学習によって様々なタスクを実行できるが、将来のコンテキストを条件とすることもできるため、より柔軟性がある。Voiceboxは、モノラルまたはクロスリンガルのゼロショット音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用することが出来る。特に、Voiceboxは、最新鋭のゼロショットTTSモデルVALL-Eを、最大20倍高速化しながら、明瞭度（単語エラー率5.9%対1.9%）と音声類似度（0.580対0.681）の双方で上回っている。モデルのデモはvoicebox.metademolab.comをご覧いただきたい。