GPT-4やGoogleのGeminiと言った最先端の大規模言語モデル(LLM)は、人間の知性の閃きにも似た“創発的能力”を果たして有しているのか否かと言う議論は、その登場当時から繰り広げられてきた。開発者であるMicrosoftなどはこれを主張する一方で、研究者らの中には否定的な意見も多い。
だが今回、Amazon AGIの研究者らは、これまでに開発された中で最大の音声言語モデルBASE TTS(Big Adaptive Streamable TTS with Emergent abilities)」を発表し、これが“創発的能力”を示していると主張している。
音声合成(TTS)モデルは、スマートデバイスの音声アシスタントの開発で使用され、書かれたテキストを話し言葉に変換するために採用され、音声アシスタントが自然で人間のような方法でユーザーとコミュニケーションすることを可能にする。
さらに、TTSモデルは、イントネーション、強調、抑揚などの要素を取り入れ、自然な音声に近い出力を生成する。
この自然さはユーザー体験を向上させ、音声アシスタントとのインタラクションをより直感的で魅力的なものにする。
AmazonのBASE TTSモデルには9億8000万ものパラメータがあり、音声合成のカテゴリーでは最大のモデルとなる。
論文によれば、BASE TTSの特徴は、その驚異的な数のパラメータだけでなく、活用されている広範なトレーニングデータセットにもあるという。このモデルは、10万時間に及ぶ「パブリックドメイン・スピーチ・データ」(90%が英語)で訓練されている。
さらに、研究者らは、様々な言語の話し言葉やフレーズの例を取り入れることで、そのレパートリーを充実させ、言語的なニュアンスや発音をシームレスにナビゲートできるようにした。
BASE TTSは、論文にあるように、「専門言語学者」の助けを借りて作成された基準に従って、人間の言語学習者にとっては自然であるが、AIでは困難であったタイプの言語の飛躍を示す、あらゆる種類の文章を考え出すことができたと報告されている。
研究チームは、AIの領域で「創発的能力」として知られるもの、つまり訓練されていないのに能力を獲得出来る現象の出現を確認するためのテストを実施した。
研究チームは、AIを訓練するためにさまざまな量のデータを使ってみた。その結果、音声合成モデルのパラメータが1億5000万個になると、言語を理解し話す能力が飛躍的に向上することがわかった。
BASE TTSの特別な点は、複雑な単語を使い、感情を表し、句読点を正しく使い、賢い方法で質問できることだと研究者らは説明している。
Amazon AGIチームは現在、倫理的な懸念からこのモデルを一般に公開することを避けている。このような強力な技術が悪用される可能性を考慮し、BASE TTSは学習ツールとして社内で使用することにしているとのことだ。
論文
- arXiv: BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
参考文献
- Amazon: BASE TTS: Lessons from building a billion-parameter text-to-speech model on 100K hours of data
- via Futurism: AMAZON AGI TEAM SAY THEIR AI IS SHOWING “EMERGENT ABILITIES”
研究の要旨
我々はBASE TTSと呼ばれる音声合成(TTS)モデルを紹介する。BASE TTSはBig Adaptive Streamable TTS with Emergent abilitiesの略である。BASE TTSは、10万時間に及ぶパブリックドメインの音声データで学習された、これまでで最大のTTSモデルであり、音声の自然さにおいて新たな最先端を達成している。BASE TTSは、10億パラメータの自己回帰変換器(autoregressive Transformer)により、生のテキストを離散的なコード(”スピーチコード”)に変換し、コンボリューションベースのデコーダにより、これらのスピーチコードをストリーム可能な漸進的な方法で波形に変換する。さらに、私たちのスピーチコードは、話者IDの切り離しとバイトペアエンコーディングによる圧縮を特徴とする新しい音声トークン化技術を使用して構築されている。大規模言語モデルを大量のデータで学習させた場合の「創発的能力」が広く報告されているのと同様に、10K時間以上と500M以上のパラメータで構築されたBASE TTSバリアントが、テキスト的に複雑なセンテンスで自然な韻律を示し始めることを示す。このようなテキスト音声合成の新たな能力を測定するための特別なデータセットを設計し、共有する。公開されている大規模音声合成システムを含むベースラインとの比較により、BASE TTSの最先端の自然さを紹介します:YourTTS、Bark、TortoiseTTSだ。モデルによって生成された音声サンプルは、このhttps URLで聞くことができる。
コメントを残す