OpenAI、音声からテキストへの変換を実現するWhisper APIを公開

ChatGPT APIのリリースにより、開発者が時分のアプリにChatGPTを統合することが可能になった事に合わせて、OpenAIは本日、同社が9月に公開したオープンソースの音声テキスト化モデルWhisperのホスト版であるWhisper APIを発表した。

Whisperは、1分あたり0.006ドルで提供される自動音声認識システムで、OpenAIは、多言語での「堅牢な」音声転写と、それらの言語から英語への翻訳を可能にすると述べている。M4A、MP3、MP4、MPEG、MPGA、WAV、WEBMなど、さまざまな形式のファイルを取り込むことができるとのことだ。

Whisperは、Webから収集した68万時間に及ぶ多言語および「マルチタスク」データに基づいて訓練されており、独特のアクセント、背景雑音、専門用語の認識向上につながっているという。

しかし、Whisperにも、特に「次の単語」の予測には限界があるという。このシステムは大量のノイズの多いデータで訓練されているため、Whisperは実際には話されていない単語を読み取りに含める可能性があるとのことだ。さらに、Whisperは言語間で同じように動作するわけではなく、学習データにあまり含まれていない言語の話者に対しては、より高いエラー率に見舞われるという。

この点は、残念ながら音声認識の世界では以前から指摘されていることで、同様に音声認識システムを開発しているGoogle、Amazon、Microsoftのシステムでも同様に見られる問題だ。

だが、OpenAIは、Whisperのの文字起こし機能が既存のアプリ、サービス、製品、ツールの改善に利用されると見ている。すでに、AIを搭載した言語学習アプリ「Speak」は、Whisper APIを利用して、アプリ内の新しい仮想会話コンパニオンを動かしているとのことだ。

Source

OpenAI: Introducing ChatGPT and Whisper APIs

OpenAI、音声からテキストへの変換を実現するWhisper APIを公開

TikTok、10代の若者のスクリーンタイムに1日1時間のデフォルト制限を導入へ

OpenAI、ChatGPT APIの提供を開始 – 開発者はChatGPTをアプリに組み込むことが可能に

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

OpenAI、音声からテキストへの変換を実現するWhisper APIを公開

TikTok、10代の若者のスクリーンタイムに1日1時間のデフォルト制限を導入へ

OpenAI、ChatGPT APIの提供を開始 – 開発者はChatGPTをアプリに組み込むことが可能に

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル