Google、音声技術のゲームチェンジャー「AudioPaLM」を発表:かつてない精度で聞き、話し、翻訳する新しい大規模言語モデル

masapoco
投稿日
2023年6月25日 9:06
artificial intelligence

Googleは、新たな音声言語モデル「AudioPaLM」を発表した。このモデルは、音声技術の分野でのゲームチェンジャーであり、前例のない精度で聞き取り、話す、翻訳する能力を持っているという。

AudioPaLMとは何か?

AudioPaLMは、Googleの研究者チームが開発した大規模言語モデルで、音声の理解と生成のタスクを処理する事が可能となっている。AudioPaLMは、既存の2つのモデル、PaLM 2モデルとAudioLMモデルの利点を組み合わせて、テキストと音声の両方を処理し生成できる統一されたマルチモーダルアーキテクチャを生み出す。これにより、AudioPaLMは音声認識から音声テキスト変換まで、さまざまなアプリケーションを処理することが可能となる。

AudioLMは話者のアイデンティティやトーンなどの非言語情報を保持するのに優れている。一方、PaLM 2はテキストベースの言語モデルで、テキスト特有の言語知識に特化している。これら2つのモデルを組み合わせることで、AudioPaLMはPaLM 2の言語専門知識とAudioLMの非言語情報の保持能力を活用し、テキストと音声の両方の理解と生成をより深く行うことが出来るのだ。

AudioPaLMの特徴

AudioPaLMは、限られた数の離散トークンを使用して音声とテキストの両方を表現できる共通の語彙を使用する。この共通語彙をマークアップタスクの説明と組み合わせることで、音声とテキストベースのタスクの多様な組み合わせに対して単一のデコーダーのみのモデルを訓練することが可能になる。これにより、従来は別々のモデルが扱っていた音声認識、テキストから音声への合成、音声から音声への翻訳といったタスクが、単一のアーキテクチャと訓練プロセスに統一される。

評価の結果、AudioPaLMは音声翻訳において既存のシステムを大幅に上回る性能を示した。また、これまでに遭遇したことのない言語の音声をテキストに正確に翻訳するゼロショット音声テキスト翻訳の能力を示した。これにより、より広範な言語サポートの可能性が開かれる。さらに、AudioPaLMは短い音声プロンプトに基づいて言語間で声を転送し、異なる言語で独特の声を捉えて再現することができる。これにより、声の変換と適応が可能になる。


論文

参考文献

研究の要旨

音声理解と音声生成のための大規模言語モデルAudioPaLMを紹介する。AudioPaLMは、テキストベースと音声ベースの言語モデルであるPaLM-2 [Anil et al., 2023]とAudioLM [Borsos et al., 2022]を統合したマルチモーダルアーキテクチャであり、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できる。AudioPaLMは、AudioLMから話者の同一性やイントネーションなどのパラ言語情報を保持する機能と、PaLM-2のようなテキスト大規模言語モデルにのみ存在する言語知識を継承している。我々は、テキストのみの大規模言語モデルの重みでAudioPaLMを初期化することで、音声処理が改善されることを実証し、事前学習で使用される大量のテキスト学習データをうまく活用して、音声タスクを支援する。その結果、このモデルは音声翻訳タスクにおいて既存のシステムを大幅に上回り、入力言語とターゲット言語の組み合わせがトレーニングで見られなかった多くの言語に対して、ゼロショットの音声テキスト翻訳を実行する能力を備えている。AudioPaLMはまた、短い音声プロンプトに基づいて言語間で音声を転送するなど、音声言語モデルの特徴も実証している。



この記事が面白かったら是非シェアをお願いします!


  • the microsoft logo on the exterior of an office building
    次の記事

    Microsoftの従業員による雇用環境への満足度は低下している

    2023年6月25日 9:21
  • 前の記事

    スパイスの科学:料理はいかにして風味を得るか

    2023年6月25日 7:10
    spice image

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事