OpenAI、音声からテキストへの変換を実現するWhisper APIを公開

masapoco
投稿日 2023年3月2日 6:36
recording

ChatGPT APIのリリースにより、開発者が時分のアプリにChatGPTを統合することが可能になった事に合わせて、OpenAIは本日、同社が9月に公開したオープンソースの音声テキスト化モデルWhisperのホスト版であるWhisper APIを発表した。

Whisperは、1分あたり0.006ドルで提供される自動音声認識システムで、OpenAIは、多言語での「堅牢な」音声転写と、それらの言語から英語への翻訳を可能にすると述べている。M4A、MP3、MP4、MPEG、MPGA、WAV、WEBMなど、さまざまな形式のファイルを取り込むことができるとのことだ。

Whisperは、Webから収集した68万時間に及ぶ多言語および「マルチタスク」データに基づいて訓練されており、独特のアクセント、背景雑音、専門用語の認識向上につながっているという。

しかし、Whisperにも、特に「次の単語」の予測には限界があるという。このシステムは大量のノイズの多いデータで訓練されているため、Whisperは実際には話されていない単語を読み取りに含める可能性があるとのことだ。さらに、Whisperは言語間で同じように動作するわけではなく、学習データにあまり含まれていない言語の話者に対しては、より高いエラー率に見舞われるという。

この点は、残念ながら音声認識の世界では以前から指摘されていることで、同様に音声認識システムを開発しているGoogle、Amazon、Microsoftのシステムでも同様に見られる問題だ。

だが、OpenAIは、Whisperのの文字起こし機能が既存のアプリ、サービス、製品、ツールの改善に利用されると見ている。すでに、AIを搭載した言語学習アプリ「Speak」は、Whisper APIを利用して、アプリ内の新しい仮想会話コンパニオンを動かしているとのことだ。


Source



この記事が面白かったら是非シェアをお願いします!


  • ea186b3de552093190fb039ab926b762
    次の記事

    TikTok、10代の若者のスクリーンタイムに1日1時間のデフォルト制限を導入へ

    2023年3月2日 6:52
  • 前の記事

    OpenAI、ChatGPT APIの提供を開始 – 開発者はChatGPTをアプリに組み込むことが可能に

    2023年3月2日 6:21
    FireShot Capture 070 Introducing ChatGPT and Whisper APIs openai.com

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事