MetaがAIを使って従来の10倍の圧縮率を実現した音声コーデック「EnCodec」を発表

Meta（メタ）はAIによって驚異的な圧縮を実現した新たな音声コーデック「EnCodec」を発表した。このコーデックでは、MP3形式の10倍の64kbpsで、品質を落とさずに音声を圧縮できるとのことだ。Metaによると、この技術により、サービスが不安定な地域での電話など、低帯域幅の接続における音声の音質を劇的に改善することができるという。また、この技術は音楽にも応用できるようだ。

Source

論文

arXiv.org : High Fidelity Neural Audio Compression

参考文献

Meta AI: Using AI to compress audio files for quick and easy sharing

研究の詳細については、「High Fidelity Neural Audio Compression」と題する論文で詳しく解説されており、また、要約は上記のMetaによるブログで公開されている。

Metaによると、この技術の肝となる部分は、音声を目的のサイズに圧縮するために訓練された3つの部分からなるシステムとのことだ。まず、エンコーダーが非圧縮データをより低いフレームレートの「潜在的空間」表現に変換する。次に「量子化器」がこの表現を目標サイズに圧縮し、後に元の信号を再構築するために使用される最も重要な情報を記録する。(この圧縮された信号が、ネットワークを通じて送信されたり、ディスクに保存されたりするのである）。最後に、デコーダーが圧縮されたデータを、1つのCPUでニューラルネットワークを使ってリアルタイムにオーディオに戻す。

このプロセスの最後に行われる、Metaの識別器(Discriminator)の使用が、信号の特徴や認識を可能にする重要な要素を失うことなく、可能な限り音声を圧縮する方法を生み出す鍵となる。

ロッシー圧縮の鍵は、低ビットレートでは完全な復元が不可能なため、人間が知覚できないような変化を識別することとなります。そのために、生成されたサンプルの知覚的な品質を向上させるために識別器を使用します。このため、識別器の仕事は実際のサンプルと再構成されたサンプルを区別することであり、猫とネズミのゲームを作り出すことになります。圧縮モデルは、復元されたサンプルが元のサンプルと知覚的に似ているように押し出すことで、識別器を欺くためにサンプルを生成しようとします。

音声の圧縮・伸張にニューラルネットワークを利用することは、特に音声圧縮の場合、決して新しいことではないが、Meta社の研究者は、この技術をインターネット上で配信される音楽ファイルによく見られる48kHzステレオ音声（CDの44.1kHzよりわずかに良いサンプリングレート）に適用した例は、Metaの今回のテクノロジーが初だという。

アプリケーションとしては、このAIによる「音声の超圧縮」が、ネットワークの状態が悪いときに「より速く、より質の高い通話」をサポートする可能性があるとのことだ。そして、この技術は最終的に「大きな帯域の改善を必要としないリッチなメタバース体験」を提供できるだろうとしている

今のところ、Metaの新技術はまだ研究段階だが、高品質のオーディオがより少ない帯域幅で利用できるようになる未来を示唆しており、ストリーミングメディアでネットワークの負担が大きいモバイルブロードバンドプロバイダーにとっては朗報だろう。

研究の要旨

本稿では、ニューラルネットワークを活用した最新のリアルタイム高忠実度オーディオコーデックを紹介する。このコーデックは、量子化された潜在空間をエンドツーエンドで学習するストリーミングエンコーダ・デコーダアーキテクチャで構成されています。本論文では、マルチスケールスペクトログラムを用いた学習により、アーチファクトを低減し、高品質なサンプルを生成することを可能にする。損失の重みは、それが表すべき全体的な勾配の割合を定義し、このハイパーパラメータの選択を損失の典型的なスケールから切り離すものである。最後に、軽量なTransformerモデルを用いて、実時間より高速でありながら、得られた表現をさらに40%まで圧縮する方法について研究している。提案モデルの主要な設計上の選択について、学習目的、アーキテクチャの変更、様々な知覚的損失関数の研究など、詳細な説明を提供する。また、音声、残響音声、音楽を含む様々な帯域幅とオーディオドメインに対するアブレーションの研究とともに、広範な主観評価（MUSHRAテスト）を提示する。その結果，24 kHzのモノラル音声と48 kHzのステレオ音声の両方において，ベースラインの手法よりも優れていることが分かった。