Meta、100の言語に対応した多言語音声・テキスト翻訳モデルをリリース

Metaは、「SeamlessM4T」と同社が呼ぶ、テキストと音声で100近い言語を翻訳・文字起こしできる新しい音声テキスト翻訳モデルをリリースした。

新しい翻訳データセットであるSeamlessAlignとともにオープンソースで提供されるSeamlessM4Tは、AIを活用した音声合成やテキスト読み上げの分野における「重要なブレークスルー」であるとMetaは主張している。

「私たちの単一モデルは、異なる言語を話す人々がより効果的にコミュニケーションすることを可能にするオンデマンド翻訳を提供します。”SeamlessM4Tは、別の言語識別モデルを必要とせずに、ソース言語を暗黙的に認識します」と、同社はプレスリリースで述べている。

SeamlessM4Tは、MetaのNo Language Left Behind（テキストからテキストへの機械翻訳モデル）、Universal Speech Translator（福建語をサポートする数少ない直接音声合成翻訳システム）の精神的後継のようなものだ。また、Massively Multilingual Speechは、1,100以上の言語で音声認識、言語識別、音声合成技術を提供するMetaのフレームワークの上に構築されている。

高度なAI翻訳・書き起こしツールの開発にリソースを投じているのはMetaだけではない。

Amazon、Microsoft、OpenAI、そして数多くの新興企業がすでに提供している豊富な商用サービスやオープンソースモデルに加え、Googleは、世界で最も話されている1,000の言語を理解できるモデルを構築するという、技術大手の大きな取り組みの一環として、ユニバーサルスピーチモデルと呼ぶものを作成している。一方Mozillaは、自動音声認識アルゴリズムをトレーニングするための、最大級の多言語音声コレクションであるCommon Voiceを率先して開発している。

しかしSeamlessM4Tは、翻訳と書き起こしの機能を単一のモデルに統合するという、これまでで最も野心的な取り組みのひとつである。

Metaによれば、開発にあたり、一般に公開されているテキスト（「数百億」文）と音声（400万時間）をWebからかき集めたという。

すべてのコンテンツ制作者が、商用利用可能なモデルを訓練するために公開データを活用する行為に賛成しているわけではない。一般に公開されているデータの上にAIツールを構築している企業に対して訴訟を起こす者もおり、ベンダーは対価を支払わないまでもクレジットを提供するよう強制されるべきであり、またオプトアウトする方法を明確に示すべきだと主張している。

しかしMetaは、同社が収集したデータ（個人を特定できる情報を含む可能性があることを同社は認めている）は著作権で保護されておらず、主にオープンソースやライセンスされたソースから得られたものだと主張している。

いずれにせよ、MetaはSeamlessAlignと呼ばれるSeamlessM4Tのトレーニングデータセットを作成するために、スクレイピングされたテキストと音声を使用した。研究者たちは、443,000時間に及ぶ音声とテキストのアライメントを行い、29,000時間に及ぶ「音声対音声」のアライメントを作成し、SeamlessM4Tに音声からテキストへの書き起こし、テキストの翻訳、テキストからの音声生成、さらにはある言語で話された単語を別の言語の単語に翻訳する方法を「教えた」。

Metaは、内部ベンチマークにおいて、SeamlessM4Tは、現在の最先端の音声転写モデルと比較して、背景雑音や音声テキスト化タスクにおける「話者のバリエーション」に対して優れたパフォーマンスを示したと主張している。これは、トレーニングデータセットに音声データとテキストデータが豊富に組み合わされているためで、SeamlessM4Tは音声のみやテキストのみのモデルよりも優れているとMetaは考えている。

「最先端の結果を得たSeamlessM4Tは、AIコミュニティが普遍的なマルチタスクシステムの実現を目指す上で、重要なブレークスルーになると信じています」とMetaはプレスリリースで述べている。

Metaは、このモデルは言語のジェンダーバイアスも認識できると主張し、翻訳におけるジェンダーバイアスを定量化できると述べた。SeamlessM4Tは、例えばスペイン語のdoctoraのように、文がジェンダー化された単語を使用しているかどうかをチェックし、必要であれば、同等のジェンダー化された文法がないターゲット言語で女性の代名詞を割り当てることができる。毒性と同様に、メタ氏は、SeamlessM4Tは、翻訳が、原語では特に性別の区別がない用語に性別のある単語を何回追加したかをカウントする、つまり、英語では性別の区別がないのに、自動的にdoctorを男性だと仮定する、と述べた。

ブログ投稿と同時に発表されたホワイトペーパーの中で、Metaは、このモデルが「中立的な用語から翻訳する場合、男性形に過剰に一般化する」こと、そして、ほとんどの言語において、男性参照（例えば、英語の「he」のような名詞）から翻訳する場合に優れたパフォーマンスを発揮することを明らかにしている。

さらに、性別の情報がない場合、SeamlessM4Tは約10％の確率で男性形を好む。

論文

Meta AI: SeamlessM4T—Massively Multilingual & Multimodal Machine Translation

参考文献

Meta AI: Bringing the world closer together with a foundational multimodal model for speech translation
GitHub: facebookresearch/seamless_communication

研究の要旨

あらゆる2言語間の音声翻訳を支援するツール、バベルフィッシュを作るには何が必要なのだろうか？近年、テキストベースの翻訳モデルが飛躍的な進歩を遂げ、機械翻訳の対応言語数が200を超えた一方で、音声対音声の統一的な翻訳モデルはまだ同様の進歩を遂げていない。より具体的には、従来の音声対音声翻訳システムは、複数のサブシステムから構成されるカスケードシステムに依存しており、段階的に翻訳を実行するため、スケーラブルで高性能な統合音声翻訳システムには手が届かない。このようなギャップに対処するため、我々は、最大100言語までの音声翻訳、音声テキスト翻訳、テキスト音声翻訳、テキストテキスト翻訳、自動音声認識をサポートする単一モデルであるSeamlessM4T-Massively Multilingual & Multimodal Machine Translationを紹介する。このモデルを構築するために、w2v-BERT 2.0を使用して自己教師付き音声表現を学習するために、100万時間のオープン音声データを使用しました。その後、SeamlessAlignと名付けられた、自動的に整列された音声翻訳のマルチモーダルコーパスを作成した。フィルターにかけ、人間がラベル付けしたデータと擬似ラベル付けしたデータ（合計406,000時間）を組み合わせることで、音声とテキストの両方について、英語から英語への翻訳が可能な初の多言語システムを開発した。Fleurs上で、SeamlessM4Tは複数のターゲット言語への翻訳の新たな標準を設定し、直接音声からテキストへの翻訳において、従来の最先端と比較して20％のBLEUの改善を達成しました。強力なカスケードモデルと比較して、SeamlessM4Tは、英語への翻訳の品質を、音声対テキストでは1.3 BLEUポイント、音声対音声では2.6 ASR-BLEUポイント向上させました。CVSSでは、音声対音声翻訳用の2段カスケードモデルと比較して、SeamlessM4T-Largeの性能が58%向上しています。英語からの翻訳では、評価された24言語のXSTSスコアは一貫して4以上（5点満点）でした。英語から英語への翻訳では、24言語中7言語において、WhisperLarge-v2のベースラインよりも有意な改善が見られました。私たちのシステムをさらに評価するために、私たちはBlaser 2.0を開発しました。Blaser 2.0は、音声とテキストにまたがって評価することが可能で、品質評価に関しては前作と同様の精度を有しています。ロバスト性をテストした結果、本システムは背景雑音や話者のバリエーションに対して、現在の最先端モデルと比較してより優れた性能を発揮した（それぞれ平均38%、49%の改善）。また、SeamlessM4Tのジェンダーバイアスを評価し、翻訳の安全性を評価するために毒性を追加した。最先端モデルと比較して、SeamlessM4Tの翻訳出力では、毒性付加が最大63%減少した。最後に、モデル、推論コード、改良されたモデリングツールキットFairseq2に裏打ちされたファインチューニングレシピ、SeamlessAlignの未フィルター47万時間を再現するためのメタデータを含む本研究の全ての貢献は、オープンソース化されている。https://github.com/facebookresearch/seamless_communication

Sources