OpenAIは2日、人間の認識能力に近いレベルで音声を認識・翻訳する新しいオープンソースAIモデル「Whisper」を公開した。これにより、インタビューやポッドキャスト、会話などの文字起こしが可能だ。
- OpenAI: Introducing Whisper
Google、Amazon、Metaといったハイテク企業のソフトウェアやサービスの中核をなす、高性能な音声認識システムは、これまでにも数限りなく開発されてきた。今回、OpenAIは、68万時間に及ぶ音声データと、ウェブから収集した98言語のトランスクリプトを照合し、Whisperをトレーニングしている。これによって、“アクセント、背景雑音、専門用語に対する堅牢性の向上”につながったとのことだ。また、話し言葉を検出し、英語に翻訳することも可能だという。
OpenAIは、Whisperをエンコーダーデコーダートランスフォーマー(入力データから得られる文脈を利用して、モデルの出力に変換できる関連性を学習できるニューラルネットワークの一種)であるとしている。OpenAIは、Whisperの動作の概要を以下のように説明している。
入力音声は30秒ごとに分割され、log-Melスペクトログラムに変換された後、エンコーダーに渡される。デコーダは、対応するテキストキャプションを予測するために学習され、言語識別、フレーズレベルのタイムスタンプ、多言語音声転写、英語音声翻訳などのタスクを単一のモデルに指示する特別なトークンが混ざっています。
OpenAIは、Whisperをオープンソース化することで、将来的に他の企業が音声処理やアクセシビリティツールの改良のために構築できる新しい基盤モデルを導入することを期待している。OpenAIは、この面で重要な実績がある。同社は、2021年1月、OpenAIは、オープン ソースのコンピューター ビジョン モデルであるCLIPをリリースしたが、これは、DALL-E 2 やStable Diffusionなどの急速に進歩する画像合成技術の先駆けとなった。
リリースにあたりOpenAIはWhisperのGitHubレポに以下のように書いている。
「Whisperが想定している主な利用者は、現在のモデルの堅牢性、汎化、能力、偏り、制約を研究しているAI研究者です。しかし、Whisperは、開発者のための自動音声認識ソリューションとして、特に英語の音声認識のために非常に有用である可能性もあります。このモデルは、〜10言語において強力なASR結果を示しています。音声活動検出、話者分類、話者日記などの特定のタスクで微調整すれば、さらなる能力を発揮する可能性がありますが、これらの分野ではしっかりと評価されていません。」
Whisperには限界があり、特にテキスト予測の分野では限界がある。このシステムは大量の「ノイズの多い」データで訓練されているため、Whisperは実際には話されていない単語を書き起こしている可能性があるとOpenAIは警告している。さらに、Whisperは言語間で同じように動作するわけではなく、学習データにあまり含まれていない言語の話者に対しては、より高いエラー率に見舞われるという。
「Whisper モデルはすぐにリアルタイムの文字起こしに使用することはできませんが、その速度とサイズは、他の人がそれらの上にほぼリアルタイムの音声認識と翻訳を可能にするアプリケーションを構築できる可能性があることを示唆しています。Whisper モデルの上に構築された有益なアプリケーションの真の価値は、これらのモデルのパフォーマンスの相違が実際の経済的影響をもたらす可能性があることを示唆しています。私たちは技術が主に有益な目的で使用され、自動音声認識技術がよりアクセスしやすくなることを願っています。速度と精度により、大量の音声通信の手頃な価格の自動文字起こしと翻訳が可能になるため、より多くのアクターが有能な監視技術を構築したり、既存の監視活動を拡大したりできるようになります。」
Whisperは適切な設定をすれば、インタビューやポッドキャストの文字起こしに簡単に使え、英語以外の言語で作られたポッドキャストを無料で英語に翻訳することもできるようになる可能性を秘めているとのことだ。これは、トランスクリプション業界を混乱させるかもしれない強力な組み合わせである。
最近の新しいAIモデルのほとんどがそうであるように、Whisperはポジティブな利点と悪用される可能性を持っている。OpenAIは、Whisperのモデルカードで、Whisperが監視の自動化や会話の中の個々の話者の特定に使われる可能性があると警告しているが、同社は「主に有益な目的で」使われることを望んでいる。
コメントを残す