OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

OpenAIは、テキスト入力と、たった15秒間の音声サンプルを使うだけで、元の話し手に近い、感情豊かでリアルで自然な音声を生成出来る音声合成プラットフォームを開発し、信頼できるパートナーと共に限定的なテストを行っていることを明らかにした。

同社が開発した「Voice Engine」と呼ばれるこのAIモデルは、2022年から開発が進められており、同社の既存の音声合成APIや、ChatGPT Voice and Read Aloudなどの技術をベースにしている。OpenAIはすでに、現在の音声合成APIと読み上げ機能で利用可能なプリセット音声を提供するために、このツールセットのバージョンを使用している。同社の公式ブログにはたくさんのサンプルが掲載されているが、合成されたとは思えないほど自然なものだ。

OpenAIによれば、この技術は読書支援、言語翻訳、突発的あるいは変性的な言語状態に苦しむ人々の支援に役立つという。今回、アクセス可能な企業には、教育テクノロジー企業のAge of Learning、ビジュアルストーリーテリングプラットフォームのHeyGen、最前線の健康ソフトウェアメーカーのDimagi、AIコミュニケーションアプリのLivox、健康システムのLifespanなどがある。

OpenAIが掲載したサンプルでは、Age of Learningがこのテクノロジーを使って、事前にスクリプトを作成したボイスオーバーコンテンツを生成したり、GPT-4が書いた生徒への「リアルタイムでパーソナライズされた回答」を読み上げたりしている様子を聞くことができる。

しかし、こうした利点にもかかわらず、この技術にはそれ以上に深刻で潜在的ななリスクをはらむ物だ。悪質な犯罪者はこれを用いた精巧なディープフェイクによって詐欺などの犯罪を引き起こし、社会に混乱を与える事は間違いないだろう。

OpenAI自身も、この技術には「深刻なリスク」があることを認めている。同社は、製品が最小限のリスクでローンチされることを保証するために、「政府、メディア、エンターテイメント、教育、市民社会など、米国内外のパートナー」からのフィードバックを取り入れているという。プレビューテスターは全員、OpenAIの使用ポリシーに同意しており、同意や法的権利なしに他人になりすますことを禁止している。

さらに、この技術を使用する者は、AIが生成した音声であることを視聴者に開示しなければならない。OpenAIは、音声の出所を追跡するための電子透かしや、システムがどのように使用されているかの「積極的な監視」といった安全対策を実施した。この製品が正式に発売される際には、著名人にあまりにも似ているAI生成音声を検出し、防止する「使用禁止音声リスト」が設けられる予定だ。

今後の展開については具体的に述べられていないが、TechCrunchは、いくつかの価格データを発見し報告している。それによれば、Voice Engineの価格は100万文字（16万5000語）あたり15ドルとなっており、既存の音声合成サービスを提供するElevenLabsのようなこの分野の競合他社を下回る可能性がありそうだ。ちなみに、100万文字は、Stephen Kingの小説『シャイニング』の長さに匹敵する。人間の声優を雇うよりは遥かに安価であり、オーディオブックを作るためには破格のコストパフォーマンスだ。ちなみに、TechCrunchが入手したマーケティング資料には、2倍の費用がかかる「HD」バージョンについても言及されているが、これについての詳細は不明だ。

OpenAIは加えて、AI開発のためのスーパーコンピューター “Stargate”を構築するために、盟友Microsoftと協力していることが報じられている。The Informationによると、このプロジェクトには1000億ドルもの巨費が投じられるとのことだ。

Sources