TikTokの親会社であるByteDanceは、OpenAIの技術を密かに使用してProject Seedと呼ばれる競合AIモデルを開発していたことが明らかになり、OpenAIからChatGPTの利用停止処分を受けていたことが、The Vergeによって報告されている。
The Vergeの編集者Alex Heath氏にリークされたByteDanceの内部文書によると、OpenAIの利用規約によって、同社のモデル出力を「当社の製品やサービスと競合する人工知能モデルの開発に使用してはならない」と明記されているにもかかわらず、OpenAI APIが、コードネーム「Project Seed」と呼ばれるByteDanceの基礎的なLLMを開発するために、モデルの訓練と評価を含む開発のほぼすべての段階で利用されていることが明らかになった。
従業員はもちろんその意味を認識しており、ByteDanceの社内コミュニケーションプラットフォームであるLark上で、”データの無感覚化”によって証拠を難読化する方法について議論していたとのことだ。
OpenAIのAI技術で競合するAIモデルを訓練するために訓練データを使用することは、OpenAIの利用規約に直接違反する。ByteDanceがOpenAIのアクセス権を購入しているMicrosoftも、同じポリシーを持っている。
このようなデータソーシングは、競合他社が高品質なデータ、ひいてはより優れたAIモデルをより早く入手するのに役立つかもしれない。しかし、生成モデルのエラーやバイアスを他のAIモデルに拡散し、全体的な生成データとトレーニングデータの品質に影響を与えるリスクもある。
OpenAI、ByteDanceによる利用規約違反の可能性を調査
OpenAIのスポークスマンであるNiko Felix氏は、ByteDanceのアカウントが停止され、疑惑が調査中であることをHeath氏に明らかにした。Felix氏によれば、ByteDanceはこれまでAPIを最小限の利用しかしていないという。もしByteDanceのAPI利用がルールから外れていることが判明した場合、ByteDanceは変更を加えるか、アカウントを削除されることになる。
ByteDance社の広報担当Jodi Seth氏はHeath氏に対し、GPTが生成したデータはProject Seedの開発初期にモデルの注釈付けに使用され、このデータは今年の半ばにByteDance社のトレーニングデータから削除されたと語った。ByteDanceはMicrosoftのライセンスパートナーであり、GPTモデルを中国国外の製品に使用しているとのことだ。
Project Seedでは、ByteDanceはDoubaoチャットボットとクラウド製品として商品化されるビジネスチャットボットの言語モデルを開発している。
Project Seedの主な目標は、できるだけ早く中国のChatGPTになることだ。チームは、今年末までにGPT3.5の性能を達成し、2024年半ばまでにGPT4の性能を達成することを課せられているという。
現在のProject Seeには2,000億ものパラメータがあると言われている。GPT-3のパラメーター数は1750億、GPT-4を合わせたパラメーター数は約1兆8000億と推定されている。しかし、モデルの性能を示す唯一の指標としてのパラメータ数は、GPT-3のリリース以降、あまり重要視されなくなっている。
Source
コメントを残す