OpenAI、多言語自動音声認識モデル「Whisper 3」を公開

masapoco
投稿日
2023年11月8日 11:11
openai

OpenAIはDevDayで、GPT-4 Turboといった旗艦モデルのバージョンアップや、様々な新機軸を発表したが。発表された製品の中には、オープンソースの自動音声認識モデル「Whisper large-v3」の拡張版も含まれていたことが判明した。OpenAIの今後の計画には、このモデルのAPIをユーザーが利用できるようにすることが含まれている。

WhisperはOpenAIのオープンソース音声テキスト変換モデルだ。新しいモデルv3は、Whisper v2で収集された100万時間の弱いラベル付き音声と400万時間の擬似ラベル付き音声で学習されている。また、言語として広東語が追加された。ベンチマークでは、モデルv3はエラー率において前モデルを大幅に上回っている。

GitHubで公開されているWhisper large-v3は、寛容なライセンスの下、ユーザーのために様々なコンテンツを簡単に書き起こし、利用可能な最高の書き起こしツールとして認知されている。その際立った特徴のひとつは、YouTubeのようなプラットフォームで字幕として使用するのに理想的な、ユニークなタイムスタンプセクションである。

このツールは、音声を30秒のクリップに分割して変換し、エンコーダーとデコーダーに通すことからテープ起こし作業を開始する。これらのコンポーネントが連携して、対応するテキストキャプションを予測する。これに加えて、言語識別には技術的な複雑さが伴い、多言語音声の書き起こしや英語への翻訳が可能になる。

性能は言語によって異なるが、一般的に、Whisper v3の最大バージョンでは、Common Voice 15とFleursのエラー率が60%未満であり、OpenAIによれば、Whisper large-v2よりも10〜20%エラーが減少しているという。

当初は、このモデルをChatGPTと統合し、ユーザーが音声を通じてチャットボットと直接対話できるようにする計画だった。しかし、OpenAIはこのモデルを直接公開することを決定した。興味深いことに、Whisperは現在エンドユーザー向けではなく、研究者向けである。

OpenAIがこのモデルをオープンソース化した理由は、有用なアプリケーションを作成するための強固な基盤を提供し、堅牢な音声処理分野のさらなる研究を奨励するためである。

様々なオンラインソースから、合計68万時間に及ぶ膨大な精度の高いモニタリングデータが収集された。このデータセットの約3分の1は英語以外のソースから得られたものである。


Source



この記事が面白かったら是非シェアをお願いします!


  • adobe caught selling ai generated images israel palestine violence
    次の記事

    Adobe、イスラエルとガザの紛争を描いたAI画像を販売

    2023年11月8日 12:01
  • 前の記事

    ダークマター探査望遠鏡「ユークリッド」が初めての驚くべき撮影画像を公開

    2023年11月8日 10:50
    Euclid s view of spiral galaxy IC 342

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事