あなたの好奇心を刺激する、テックと科学の総合ニュースサイト

最先端のAI企業はAIのトレーニングにAIが生成したデータを用いるようになってきている

AI企業は、自社のAI製品を訓練するために、もはや人間が作り出したデータを利用する事すら止める日が来るかも知れない。

MicrosoftやOpenAI、LLMスタートアップのCohereなどのAI企業は、インターネット上にある「有機的な」人間が生成したデータの利用可能性が、著作権やプライバシーの関係で限られていることを理由に、AIが生成した(合成)データを、すでに生成されたデータでトレーニングを行うという、“再帰的な”手法の開発を目指しているようだ。

AIの生成した“質の高い”データを利用してAIを学習させる

Financial Times紙の最近の報道によると、これらの企業は前述の合成データの使用をすでにテストしている企業の一部である。乏しい人間が提供する “自然な “情報に比べ、合成データはコンピューター・アルゴリズムによって生成され、人間の監督者がフィードバックを提供し、ギャップを埋める。このプロセスは、人間のフィードバックによる強化学習(RLHF)として知られている。

生成AIのアルゴリズムがますます洗練されていく中、AI企業は大規模言語モデル(LLM)をトレーニングし続けるための新しい「質の高い」コンテンツを入手する方法を求めることに躍起だ。CohereのCEO Aidan Gomez氏は、Financial Timesに「現実には、Webはノイズが多く、雑然としているため、必要なデータの代表とは言えない。Webは私たちが必要とするものすべてを提供してはくれないのです」と、語っている。

Gomez氏は、科学、ヘルスケア、ビジネスの課題に取り組む今日のLLMのパフォーマンスを向上させるためには、世界レベルの専門家によって作成された「ユニークで洗練されたデータセット」が必要だと述べた。しかし、このような人間が作成したデータは「非常に」高価であるため、現実的ではない。そのため、Gretel.aiのような “合成データ”企業がすでに設立されている。Gretel.aiは合成データセットの作成を専門とし、それをトレーニング用に販売している。

基本的なAIモデルはすでに、テキストやコード、あるいは医療や金融詐欺に関連するその他の「複雑な」情報を出力することだけを目的として開発されている。この “合成”情報は、さらに “インテリジェンス”とテキスト生成能力を顧客に提供するために、新世代の高度なLLMを訓練するために使用することができる。

Gomez氏によると、Cohereは高度な数学のAIモデルに取り組んでおり、2つの異なるモデルが互いに会話し、数学の家庭教師や生徒の役割を果たす。2つのモデルは「三角法についての会話」をするが、それはすべて合成されたものだとGomez氏は言う。モデルが何か間違ったことを言ったのか、あるいは完全にでっち上げなのかは、後で人間がチェックすることができる。

AIモデル同士の会話は、OpenAIのようなLLM企業が直面している、プライバシーや著作権の問題を解決する可能性もある。うまく作られた合成データセットは、既存データの偏りや不均衡を取り除くことができる、と前述のAIスタートアップであるGretel.aiのCEOであるAli Golshan氏は述べている。ただし、同氏は純粋に合成されたトレーニングも進歩を妨げる可能性があることを認めている。Web上にはすでにAIが生成した情報が散乱しており、その結果、AIのフィードバック・ループ・プロセスで予測されるように、チャットボットの劣化や「知識の再利用」が時間の経過とともに起こるだろう。

「本当に望んでいるのは、AIモデルが自分自身で教えることができるようになることです。自分で質問し、新たな真実を発見し、自分で知識を創造できるようになってほしい。それが夢なのです」と、Gomez氏は述べている。それが実現したとき、まさに人類はシンギュラリティを迎える事だろう。


Sources

Follow Me !

この記事が気に入ったら是非フォローを!

Share!!

スポンサーリンク

おすすめ記事

執筆者
Photo of author

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

記事一覧を見る

コメントする

CAPTCHA