OpenAI、音声からテキストへの変換を実現するWhisper APIを公開

ChatGPT APIのリリースにより、開発者が時分のアプリにChatGPTを統合することが可能になった事に合わせて、OpenAIは本日、同社が9月に公開したオープンソースの音声テキスト化モデルWhisperのホスト版であるWhisper APIを発表した。

Whisperは、1分あたり0.006ドルで提供される自動音声認識システムで、OpenAIは、多言語での「堅牢な」音声転写と、それらの言語から英語への翻訳を可能にすると述べている。M4A、MP3、MP4、MPEG、MPGA、WAV、WEBMなど、さまざまな形式のファイルを取り込むことができるとのことだ。

Whisperは、Webから収集した68万時間に及ぶ多言語および「マルチタスク」データに基づいて訓練されており、独特のアクセント、背景雑音、専門用語の認識向上につながっているという。

しかし、Whisperにも、特に「次の単語」の予測には限界があるという。このシステムは大量のノイズの多いデータで訓練されているため、Whisperは実際には話されていない単語を読み取りに含める可能性があるとのことだ。さらに、Whisperは言語間で同じように動作するわけではなく、学習データにあまり含まれていない言語の話者に対しては、より高いエラー率に見舞われるという。

この点は、残念ながら音声認識の世界では以前から指摘されていることで、同様に音声認識システムを開発しているGoogle、Amazon、Microsoftのシステムでも同様に見られる問題だ。

だが、OpenAIは、Whisperのの文字起こし機能が既存のアプリ、サービス、製品、ツールの改善に利用されると見ている。すでに、AIを搭載した言語学習アプリ「Speak」は、Whisper APIを利用して、アプリ内の新しい仮想会話コンパニオンを動かしているとのことだ。

Source