OpenAI が多言語音声認識システムである「Whisper」をオープンソース化 – インタビューやポッドキャストの文字起こしが可能に?

masapoco
投稿日
2022年9月23日 10:38

OpenAIは2日、人間の認識能力に近いレベルで音声を認識・翻訳する新しいオープンソースAIモデル「Whisper」を公開した。これにより、インタビューやポッドキャスト、会話などの文字起こしが可能だ。

Google、Amazon、Metaといったハイテク企業のソフトウェアやサービスの中核をなす、高性能な音声認識システムは、これまでにも数限りなく開発されてきた。今回、OpenAIは、68万時間に及ぶ音声データと、ウェブから収集した98言語のトランスクリプトを照合し、Whisperをトレーニングしている。これによって、“アクセント、背景雑音、専門用語に対する堅牢性の向上”につながったとのことだ。また、話し言葉を検出し、英語に翻訳することも可能だという。

OpenAIは、Whisperをエンコーダーデコーダートランスフォーマー(入力データから得られる文脈を利用して、モデルの出力に変換できる関連性を学習できるニューラルネットワークの一種)であるとしている。OpenAIは、Whisperの動作の概要を以下のように説明している。

入力音声は30秒ごとに分割され、log-Melスペクトログラムに変換された後、エンコーダーに渡される。デコーダは、対応するテキストキャプションを予測するために学習され、言語識別、フレーズレベルのタイムスタンプ、多言語音声転写、英語音声翻訳などのタスクを単一のモデルに指示する特別なトークンが混ざっています。

OpenAIは、Whisperをオープンソース化することで、将来的に他の企業が音声処理やアクセシビリティツールの改良のために構築できる新しい基盤モデルを導入することを期待している。OpenAIは、この面で重要な実績がある。同社は、2021年1月、OpenAIは、オープン ソースのコンピューター ビジョン モデルであるCLIPをリリースしたが、これは、DALL-E 2 Stable Diffusionなどの急速に進歩する画像合成技術の先駆けとなった。

リリースにあたりOpenAIはWhisperのGitHubレポに以下のように書いている。

「Whisperが想定している主な利用者は、現在のモデルの堅牢性、汎化、能力、偏り、制約を研究しているAI研究者です。しかし、Whisperは、開発者のための自動音声認識ソリューションとして、特に英語の音声認識のために非常に有用である可能性もあります。このモデルは、〜10言語において強力なASR結果を示しています。音声活動検出、話者分類、話者日記などの特定のタスクで微調整すれば、さらなる能力を発揮する可能性がありますが、これらの分野ではしっかりと評価されていません。」

Whisperには限界があり、特にテキスト予測の分野では限界がある。このシステムは大量の「ノイズの多い」データで訓練されているため、Whisperは実際には話されていない単語を書き起こしている可能性があるとOpenAIは警告している。さらに、Whisperは言語間で同じように動作するわけではなく、学習データにあまり含まれていない言語の話者に対しては、より高いエラー率に見舞われるという。

「Whisper モデルはすぐにリアルタイムの文字起こしに使用することはできませんが、その速度とサイズは、他の人がそれらの上にほぼリアルタイムの音声認識と翻訳を可能にするアプリケーションを構築できる可能性があることを示唆しています。Whisper モデルの上に構築された有益なアプリケーションの真の価値は、これらのモデルのパフォーマンスの相違が実際の経済的影響をもたらす可能性があることを示唆しています。私たちは技術が主に有益な目的で使用され、自動音声認識技術がよりアクセスしやすくなることを願っています。速度と精度により、大量の音声通信の手頃な価格の自動文字起こしと翻訳が可能になるため、より多くのアクターが有能な監視技術を構築したり、既存の監視活動を拡大したりできるようになります。」

Whisperは適切な設定をすれば、インタビューやポッドキャストの文字起こしに簡単に使え、英語以外の言語で作られたポッドキャストを無料で英語に翻訳することもできるようになる可能性を秘めているとのことだ。これは、トランスクリプション業界を混乱させるかもしれない強力な組み合わせである。

最近の新しいAIモデルのほとんどがそうであるように、Whisperはポジティブな利点と悪用される可能性を持っている。OpenAIは、Whisperのモデルカードで、Whisperが監視の自動化や会話の中の個々の話者の特定に使われる可能性があると警告しているが、同社は「主に有益な目的で」使われることを望んでいる。



この記事が面白かったら是非シェアをお願いします!


  • perovskite solar durability 1
    次の記事

    ペロブスカイト太陽電池の安定性・耐久性を劇的に向上させる技術が開発された

    2022年9月23日 10:39
  • 前の記事

     iOS 16.0.2がリリース、サードパーティー製アプリでカメラ機能に問題が起こる不具合を修正

    2022年9月23日 10:20
    Apple iPhone 14 Pro iPhone 14 Pro Max back camera 220907
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事