Google、音声技術のゲームチェンジャー「AudioPaLM」を発表：かつてない精度で聞き、話し、翻訳する新しい大規模言語モデル

Googleは、新たな音声言語モデル「AudioPaLM」を発表した。このモデルは、音声技術の分野でのゲームチェンジャーであり、前例のない精度で聞き取り、話す、翻訳する能力を持っているという。

AudioPaLMとは何か？

AudioPaLMは、Googleの研究者チームが開発した大規模言語モデルで、音声の理解と生成のタスクを処理する事が可能となっている。AudioPaLMは、既存の2つのモデル、PaLM 2モデルとAudioLMモデルの利点を組み合わせて、テキストと音声の両方を処理し生成できる統一されたマルチモーダルアーキテクチャを生み出す。これにより、AudioPaLMは音声認識から音声テキスト変換まで、さまざまなアプリケーションを処理することが可能となる。

AudioLMは話者のアイデンティティやトーンなどの非言語情報を保持するのに優れている。一方、PaLM 2はテキストベースの言語モデルで、テキスト特有の言語知識に特化している。これら2つのモデルを組み合わせることで、AudioPaLMはPaLM 2の言語専門知識とAudioLMの非言語情報の保持能力を活用し、テキストと音声の両方の理解と生成をより深く行うことが出来るのだ。

AudioPaLMの特徴

AudioPaLMは、限られた数の離散トークンを使用して音声とテキストの両方を表現できる共通の語彙を使用する。この共通語彙をマークアップタスクの説明と組み合わせることで、音声とテキストベースのタスクの多様な組み合わせに対して単一のデコーダーのみのモデルを訓練することが可能になる。これにより、従来は別々のモデルが扱っていた音声認識、テキストから音声への合成、音声から音声への翻訳といったタスクが、単一のアーキテクチャと訓練プロセスに統一される。

評価の結果、AudioPaLMは音声翻訳において既存のシステムを大幅に上回る性能を示した。また、これまでに遭遇したことのない言語の音声をテキストに正確に翻訳するゼロショット音声テキスト翻訳の能力を示した。これにより、より広範な言語サポートの可能性が開かれる。さらに、AudioPaLMは短い音声プロンプトに基づいて言語間で声を転送し、異なる言語で独特の声を捉えて再現することができる。これにより、声の変換と適応が可能になる。

論文

arXiv: AudioPaLM: A Large Language Model That Can Speak and Listen

参考文献

Google Research: AudioPaLM A Large Language Model That Can Speak and Listen
via The Decoder: Google AudioPaLM can translate text with your voice

研究の要旨

音声理解と音声生成のための大規模言語モデルAudioPaLMを紹介する。AudioPaLMは、テキストベースと音声ベースの言語モデルであるPaLM-2 [Anil et al., 2023]とAudioLM [Borsos et al., 2022]を統合したマルチモーダルアーキテクチャであり、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できる。AudioPaLMは、AudioLMから話者の同一性やイントネーションなどのパラ言語情報を保持する機能と、PaLM-2のようなテキスト大規模言語モデルにのみ存在する言語知識を継承している。我々は、テキストのみの大規模言語モデルの重みでAudioPaLMを初期化することで、音声処理が改善されることを実証し、事前学習で使用される大量のテキスト学習データをうまく活用して、音声タスクを支援する。その結果、このモデルは音声翻訳タスクにおいて既存のシステムを大幅に上回り、入力言語とターゲット言語の組み合わせがトレーニングで見られなかった多くの言語に対して、ゼロショットの音声テキスト翻訳を実行する能力を備えている。AudioPaLMはまた、短い音声プロンプトに基づいて言語間で音声を転送するなど、音声言語モデルの特徴も実証している。