最先端のAI企業はAIのトレーニングにAIが生成したデータを用いるようになってきている

AI企業は、自社のAI製品を訓練するために、もはや人間が作り出したデータを利用する事すら止める日が来るかも知れない。

MicrosoftやOpenAI、LLMスタートアップのCohereなどのAI企業は、インターネット上にある「有機的な」人間が生成したデータの利用可能性が、著作権やプライバシーの関係で限られていることを理由に、AIが生成した（合成）データを、すでに生成されたデータでトレーニングを行うという、“再帰的な”手法の開発を目指しているようだ。

AIの生成した“質の高い”データを利用してAIを学習させる

Financial Times紙の最近の報道によると、これらの企業は前述の合成データの使用をすでにテストしている企業の一部である。乏しい人間が提供する “自然な “情報に比べ、合成データはコンピューター・アルゴリズムによって生成され、人間の監督者がフィードバックを提供し、ギャップを埋める。このプロセスは、人間のフィードバックによる強化学習（RLHF）として知られている。

生成AIのアルゴリズムがますます洗練されていく中、AI企業は大規模言語モデル（LLM）をトレーニングし続けるための新しい「質の高い」コンテンツを入手する方法を求めることに躍起だ。CohereのCEO Aidan Gomez氏は、Financial Timesに「現実には、Webはノイズが多く、雑然としているため、必要なデータの代表とは言えない。Webは私たちが必要とするものすべてを提供してはくれないのです」と、語っている。

Gomez氏は、科学、ヘルスケア、ビジネスの課題に取り組む今日のLLMのパフォーマンスを向上させるためには、世界レベルの専門家によって作成された「ユニークで洗練されたデータセット」が必要だと述べた。しかし、このような人間が作成したデータは「非常に」高価であるため、現実的ではない。そのため、Gretel.aiのような “合成データ”企業がすでに設立されている。Gretel.aiは合成データセットの作成を専門とし、それをトレーニング用に販売している。

基本的なAIモデルはすでに、テキストやコード、あるいは医療や金融詐欺に関連するその他の「複雑な」情報を出力することだけを目的として開発されている。この “合成”情報は、さらに “インテリジェンス”とテキスト生成能力を顧客に提供するために、新世代の高度なLLMを訓練するために使用することができる。

Gomez氏によると、Cohereは高度な数学のAIモデルに取り組んでおり、2つの異なるモデルが互いに会話し、数学の家庭教師や生徒の役割を果たす。2つのモデルは「三角法についての会話」をするが、それはすべて合成されたものだとGomez氏は言う。モデルが何か間違ったことを言ったのか、あるいは完全にでっち上げなのかは、後で人間がチェックすることができる。

AIモデル同士の会話は、OpenAIのようなLLM企業が直面している、プライバシーや著作権の問題を解決する可能性もある。うまく作られた合成データセットは、既存データの偏りや不均衡を取り除くことができる、と前述のAIスタートアップであるGretel.aiのCEOであるAli Golshan氏は述べている。ただし、同氏は純粋に合成されたトレーニングも進歩を妨げる可能性があることを認めている。Web上にはすでにAIが生成した情報が散乱しており、その結果、AIのフィードバック・ループ・プロセスで予測されるように、チャットボットの劣化や「知識の再利用」が時間の経過とともに起こるだろう。

「本当に望んでいるのは、AIモデルが自分自身で教えることができるようになることです。自分で質問し、新たな真実を発見し、自分で知識を創造できるようになってほしい。それが夢なのです」と、Gomez氏は述べている。それが実現したとき、まさに人類はシンギュラリティを迎える事だろう。

Sources

Financial Times: Why computer-made data is being used to train AI models
via Tom’s Hardware: AI Companies Seeking AI-Produced Data for Recursive Training