OpenAIがAIによる破滅を防ぐ為に取り始めた戦略とは

OpenAIは、有害なAIの脅威から身を守るため、社内の安全プロセスを拡大している。新しい “安全諮問グループ”は技術チームの上に位置し、リーダーシップに提言を行い、取締役会には拒否権が与えられているとのことだ。

「Preparedness Framework (Beta)」と名付けられた文書では、破滅的なAIリスクを監視、評価、予測、ヘッジするための戦略が詳細に語られている。

OpenAIは、慎重な評価を通じて破滅的リスクを監視しようとしている。そのために、リスクのレベルを正確に測定するための評価手順やその他のモニタリング方法を開発し、改良することを目指している。

同時に、将来のリスク展開を予測し、安全対策を事前に準備することを目指している。

OpenAIはまた、新たなリスク（「未知の未知」）の特定と調査にも取り組んでいる。その目的は、潜在的な脅威が拡大する前に対処することだ。

サイバーセキュリティ、生物兵器、説得、自律性

準備フレームワークは、4つの主要なリスク・カテゴリーを特定している：

サイバーセキュリティ
化学、生物、核、放射線（CBRN）の脅威、
説得
およびモデルの自律性である。

説得は、人々を説得して信念を変えさせたり、それに従って行動させたりすることに伴うリスクに焦点を当てている。

低レベルから重大まで

このフレームワークは、安全性の閾値を定義している。各カテゴリは「低」から「重大」までのスケールで評価され、リスクのレベルを反映している。

OpenAIは、リスク評価が「中」以下のモデルは、運転に適しているとしている。

さらに開発できるのは、緩和後のリスク評価が「高」以下のモデルのみである「重大」と評価されたモデルは開発できない。

OpenAIでは、社内の専門チームが、リスクの研究、評価、監視、予測を推進する。このチームは、OpenAIの経営陣と取締役会が十分な情報を得た上で安全に関する決定を下すのを支援する諮問機関である安全諮問グループ（SAG）に定期的に報告する。

準備チームは、3つのOpenAIセキュリティチームのうちの1つである。準備チームの他に、現在のモデルを扱う安全システムチームと、スーパーAIから起こりうる脅威を予測することを目的としたスーパーアライメントチームがある。準備チームは、基礎となるAIモデルを評価する。

スコアカードとガバナンスシステム

準備フレームワークは、各リスクカテゴリーについて、リスク軽減前と軽減後の現在のモデルリスクを測定する動的なスコアカードを提供する。さらに、OpenAIはセキュリティポリシーと手続き要件を定義している。

実用的なアプリケーションを説明するために、OpenAIは2つの可能なシナリオを概説している。

説得リスクシナリオ：リスク軽減の前に、新しく訓練されたモデルに対して「高」の説得リスクが特定された場合、安全機能が有効になり、リスク軽減アクションが実行される。これらのステップを経て、リスク軽減後のリスクは「中」と評価される。

サイバーセキュリティリスクのシナリオ：新しい効果的なプロンプト技術の発見後、6ヶ月以内に「重大」なサイバーセキュリティリスクが予測される。これを契機に安全計画が策定され、リスク軽減後もリスクが「高」レベルにとどまるように安全対策が実施される。

OpenAIは、潜在的なAIの脅威から人類を守るため、他の業界関係者にも同様の戦略を採用するよう呼びかけている。

Sources

OpenAI:
- Preparedness
- Preparedness Framework (Beta) [PDF]