最先端のAI企業はAIのトレーニングにAIが生成したデータを用いるようになってきている

masapoco
投稿日 2023年7月21日 14:19
ai chip image 1

AI企業は、自社のAI製品を訓練するために、もはや人間が作り出したデータを利用する事すら止める日が来るかも知れない。

MicrosoftやOpenAI、LLMスタートアップのCohereなどのAI企業は、インターネット上にある「有機的な」人間が生成したデータの利用可能性が、著作権やプライバシーの関係で限られていることを理由に、AIが生成した(合成)データを、すでに生成されたデータでトレーニングを行うという、“再帰的な”手法の開発を目指しているようだ。

AIの生成した“質の高い”データを利用してAIを学習させる

Financial Times紙の最近の報道によると、これらの企業は前述の合成データの使用をすでにテストしている企業の一部である。乏しい人間が提供する “自然な “情報に比べ、合成データはコンピューター・アルゴリズムによって生成され、人間の監督者がフィードバックを提供し、ギャップを埋める。このプロセスは、人間のフィードバックによる強化学習(RLHF)として知られている。

生成AIのアルゴリズムがますます洗練されていく中、AI企業は大規模言語モデル(LLM)をトレーニングし続けるための新しい「質の高い」コンテンツを入手する方法を求めることに躍起だ。CohereのCEO Aidan Gomez氏は、Financial Timesに「現実には、Webはノイズが多く、雑然としているため、必要なデータの代表とは言えない。Webは私たちが必要とするものすべてを提供してはくれないのです」と、語っている。

Gomez氏は、科学、ヘルスケア、ビジネスの課題に取り組む今日のLLMのパフォーマンスを向上させるためには、世界レベルの専門家によって作成された「ユニークで洗練されたデータセット」が必要だと述べた。しかし、このような人間が作成したデータは「非常に」高価であるため、現実的ではない。そのため、Gretel.aiのような “合成データ”企業がすでに設立されている。Gretel.aiは合成データセットの作成を専門とし、それをトレーニング用に販売している。

基本的なAIモデルはすでに、テキストやコード、あるいは医療や金融詐欺に関連するその他の「複雑な」情報を出力することだけを目的として開発されている。この “合成”情報は、さらに “インテリジェンス”とテキスト生成能力を顧客に提供するために、新世代の高度なLLMを訓練するために使用することができる。

Gomez氏によると、Cohereは高度な数学のAIモデルに取り組んでおり、2つの異なるモデルが互いに会話し、数学の家庭教師や生徒の役割を果たす。2つのモデルは「三角法についての会話」をするが、それはすべて合成されたものだとGomez氏は言う。モデルが何か間違ったことを言ったのか、あるいは完全にでっち上げなのかは、後で人間がチェックすることができる。

AIモデル同士の会話は、OpenAIのようなLLM企業が直面している、プライバシーや著作権の問題を解決する可能性もある。うまく作られた合成データセットは、既存データの偏りや不均衡を取り除くことができる、と前述のAIスタートアップであるGretel.aiのCEOであるAli Golshan氏は述べている。ただし、同氏は純粋に合成されたトレーニングも進歩を妨げる可能性があることを認めている。Web上にはすでにAIが生成した情報が散乱しており、その結果、AIのフィードバック・ループ・プロセスで予測されるように、チャットボットの劣化や「知識の再利用」が時間の経過とともに起こるだろう。

「本当に望んでいるのは、AIモデルが自分自身で教えることができるようになることです。自分で質問し、新たな真実を発見し、自分で知識を創造できるようになってほしい。それが夢なのです」と、Gomez氏は述べている。それが実現したとき、まさに人類はシンギュラリティを迎える事だろう。


Sources



この記事が面白かったら是非シェアをお願いします!


  • privacy sandbox
    次の記事

    サードパーティーCookieを置き換えるプライバシーサンドボックスがついに導入へ

    2023年7月21日 16:58
  • 前の記事

    Amazon、手のひら認識決済システム「Amazon One」を米国内で本格的に全国展開へ

    2023年7月21日 12:24
    amazonone 2

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • Babylon 7

    Microsoft、Webゲーム用のグローバルイルミネーションサポートを追加したBabylon.js 7.0を公開

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

今読まれている記事