Meta、4,000以上の言語に対応した音声認識モデル「Massively Multilingual Speech(MMS)」をオープンソースとして発表

masapoco
投稿日
2023年5月23日 10:18
01 Map

Metaは、正確で信頼性の高い音声認識モデルの作成という課題を克服することを目的とした新しいプロジェクト「Massively Multilingual Speech(MMS)」をオープンソースとして発表した。

Metaがこれをオープンソース化したのは、他の多くの公開されたAIプロジェクトと同様に、言語の多様性を維持し、研究者がその基盤を構築することを促進する事を目的としているためだ。「今日、私たちは、研究コミュニティの他の人々が私たちの仕事を基に構築できるように、私たちのモデルとコードを公に共有しています。この作業を通じて、世界の信じられないほどの言語多様性の保全に少しでも貢献できればと思います。」と同社はブログ投稿で述べている。

人間の音声を認識し、それに応答することができるAIモデルは、特に音声による情報取得に完全に依存している人々にとって、多くの可能性を秘めている。しかし、高品質のモデルをトレーニングするには、一般に、何千時間もの音声と、その内容を書き起こしたものなど、膨大な量のデータが必要だ。多くの言語、特に曖昧な言語では、そのようなデータは存在しない。

MetaのMMSプロジェクトでは、wav2vec 2.0という自己教師付き学習アルゴリズムと、1,100以上の言語のラベル付きデータ、および4,000近い言語のラベルなしデータを提供する新しいデータセットを組み合わせることによって、この要件を満たしている。

特定の言語のデータ不足を解消するために、Metaの研究者は聖書に注目した。聖書は他の多くの本とは異なり、すでに何千もの言語に翻訳されている。聖書の翻訳は、テキストベースの言語翻訳研究のためにしばしば研究され、多くの場合、これらのテキストを読む人々の音声記録も公開されている。

「このプロジェクトの一環として、我々は1,100以上の言語における新約聖書の朗読のデータセットを作成し、1言語あたり平均32時間のデータを提供した」とMetaの研究者は述べている。

もちろん、32時間のデータでは、従来の教師あり音声認識モデルを学習させるには不十分であるため、wav2vec 2.0が使用された。wav2vec 2.0は、ラベル付き学習データに頼らずに機械が学習することを可能にする自己教師付き学習アルゴリズムである。

これを使えば、より少ないデータで音声認識モデルを学習させることができる。MMSプロジェクトでは、1,400以上の言語による約50万時間の音声データに対して、複数の自己教師付きモデルを学習させた後、多言語音声認識や言語識別など、特定の音声タスクに合わせたモデルの微調整を行った。

Metaは、FLEURSのような標準的なベンチマークでも、他の音声認識モデルとの比較でも、得られたモデルは良好な結果を示したと述べている。

「我々は、1Bパラメータのwav2vec 2.0モデルを用いて、1,100以上の言語について多言語音声認識モデルを訓練しました。言語数が増えるにつれて、性能は低下しますが、ごくわずかです:61言語から1,107言語へ移行すると、文字誤り率は約0.4%しか増加しませんが、言語カバー率は17倍以上増加します」と、Metaの研究者は述べている。

OpenAI LPのWhisper音声認識モデルと直接比較したところ、Metaの研究者は、MMSデータで学習したモデルは、単語エラー率が約半分になることを発見した。「これは、我々のモデルが、現在の最良の音声モデルと比較して非常に優れた性能を発揮できることを実証しています」と研究者は述べている。

Metaは、MMSデータセットと、モデルの改良と訓練に使用したツールを共有し、AI研究コミュニティーの他の人々がこの研究を基にできるようにすると述べている。MetaのMMSの目標は、より多くの言語をサポートするためにカバー範囲を拡大し、既存の音声技術にとって大きな課題である方言の取り扱いを改善することだ。

「私たちの目標は、人々が自分の好きな言語で情報にアクセスしたり、デバイスを使用したりすることを容易にすることです。また、一つのモデルで全ての言語の複数の音声タスクを解決できるようになる未来も想定しています。我々は、音声認識、音声合成、言語識別のために別々のモデルを訓練しましたが、将来的には、単一のモデルがこれらすべてのタスクとそれ以上を達成できるようになり、全体的な性能向上につながると考えています」。


Source



この記事が面白かったら是非シェアをお願いします!


  • pet bottle
    次の記事

    プラスチック製品のリサイクルがかえってマイクロプラスチックを生み出してしまうことが判明

    2023年5月23日 12:11
  • 前の記事

    Intel、スーパーコンピュータ「Aurora」の全仕様を公開:21,248個のXeon CPUと63,744個のGPUで2エクサフロップスを超える

    2023年5月23日 6:54
    newsroom gpu max series pcie card.rendition.intel .web .1280.720
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事