Meta(メタ)は、先日Grand Tetonプラットフォームを発表し、AI関連の進歩を続けていることを発表したが、開発中のAI Universal Speech Translator(UST)が最初のマイルストーンを達成したことを明らかにした。MetaのAI USTは、今回、台湾・シンガポール・マレーシアなどで用いられている福建語をリアルタイムで英語に翻訳することが可能になったとのことだ。
- 論文
- arXiv: UWSpeech: Speech to Speech Translation for Unwritten Languages
- Meta Research: SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations
- Meta Research: Simple and Effective Unsupervised Speech Translation
- Meta Research: UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
- 参考文献
機械学習による翻訳システムでは、通常、ラベル付けが可能な書き言葉と話し言葉の両方の豊富な用例を学習対象にする必要がある。だが、福建語は広く用いられているにもかかわらず、標準的な書き言葉がないそうだ。そのため、福建語をそのまま伝えることは難しく、これが世代を超えたコミュニケーションの壁にもなっているという。この問題を解決するために、Metaのブログでは、以下のように説明している。
我々は音声単位変換(S2UT)を使って、以前Metaが開拓した方法で入力音声を直接音響単位のシーケンスに変換しました。そして、そのユニットから波形を生成しました。さらに、UnitYは、第1パスのデコーダが関連言語(北京語)のテキストを生成し、第2パスのデコーダがユニットを生成する2パスデコードの仕組みに採用されました。
英語(または福建語)の音声をまず北京語のテキストに翻訳し、それを福建語(または英語)に翻訳して学習データに加えるという、疑似ラベルを構築するために中間言語として北京語を活用しました。
現在、福建語を話す人と英語を話す人が、たどたどしいながらも会話できるようになっているという。しかし、この技術はいずれ多くの言語に適用でき、リアルタイムで翻訳できるようになると確信しているとのことだ。
Meta社は、このプロジェクトから既にオープンソース化しているモデルとトレーニングデータに加え、「Taiwanese Across Taiwan」という福建語の音声コーパスに基づく世界初の音声翻訳ベンチマークシステム、および「LASER」というMeta社の革新的データマイニング技術でマイニングした大規模音声翻訳コーパス、スピーチマトリックスを公開すると発表している。このシステムにより、研究者は独自の音声翻訳(S2ST)システムを構築することができるようになる。
コメントを残す