OpenAIは、AIモデルの学習に使用するデータセットを第三者から収集する新しいパートナーシップ・プログラム「OpenAI Data Partnerships」を展開すると発表した。同社は公共および民間のデータセットを共同で作成する組織を募集しており、このイニシアチブによって様々なテーマ、産業、文化、言語に対するAIの理解を深め、AGIの開発を促進することを目的としている、とのことだ。
OpenAIは、そのAIモデルが様々な領域にその裾野を広げるにつれ、、テキスト、画像、音声、動画など様々なモダリティを含む、人間社会を反映する大規模なデータセットに興味を持っており、異なる言語、トピック、フォーマットにわたる長文の文章や会話など、人間の意図を表現するデータに焦点を当てている。
「最終的に全人類にとって安全で有益な[AI]を作るために、AIモデルにはあらゆるテーマ、産業、文化、言語を深く理解してもらいたいのです。あなたのコンテンツを含めることで、AIモデルはあなたの領域に対する理解を深め、よりあなたの役に立つことができます」と、OpenAIは述べている。
データ・パートナーシップ・プログラムの一環として、OpenAIは「人間社会を反映した」、現在オンラインでは簡単にアクセスできない「大規模な」データセットを収集するとしている。同社は、画像、音声、動画など幅広いモダリティに取り組む予定だが、特に、異なる言語、トピック、フォーマットにわたる「人間の意図を表現する」データ(長文の文章や会話など)を求めている。
同社はすでにいくつかの組織と提携し、AIトレーニングにキュレーションされたデータセットを組み込んでいる。アイスランド政府およびMiðeind ehfとの協力により、GPT-4のアイスランド語理解能力を高めるなど、注目すべき協力関係も見られる。
さらに、OpenAIは非営利団体Free Law Projectと協力し、この膨大な法律文書コレクションをAIトレーニングに組み込むことで、法的理解へのアクセスを民主化することを目指している。
OpenAI Data Partnershipsへの参加に際し、OpenAIは組織に対して2つのパートナーシップオプションを提供している。ひとつはオープンソースアーカイブで、言語モデルの学習に関連するデータセットとなり、アーカイブへの投稿は誰でも利用できるように公開される。もう一つは、企業がプライベート・データセットを通じて情報を提出するもので、この方法では独自のAIモデル(同社によれば、”基礎モデル”と “微調整されたカスタムモデル”)をトレーニングするために利用される。これは、データの機密性を保ちたい企業や機関に推奨される。しかし、OpenAIは機密情報や個人情報を含むデータセットは求めていないとしている。
「全体として、私たちはAIに私たちの世界を理解させ、誰にとっても最大限の役に立つことを教える手助けをしてくれるパートナーを求めています」とOpenAIは書いている。
興味深いことに、最初のDevDayで、OpenAIは、ChatGPTの企業レベルのユーザーに対して、著作権関連のクレームに対する財政的支援と法的防御を提供することを目的とした著作権シールドプログラムを開始していた。
CEOのSam Altman氏は、このプログラムを発表しながら、ライセンスされたデータソースと一般に利用可能なデータソースを組み合わせて学習させたAIシステムにおいて、著作権コンプライアンスを確保するための努力を強調した。
Source
- OpenAI: OpenAI Data Partnerships
コメントを残す