ChatGPTを時代遅れにする“人間レベル”のAIを実現する新たなトレーニング手法が見つかる

企業がAI技術の改善に力を入れ続けるなか、科学者たちはChatGPTなど既存の生成AIの能力を凌駕するかもしれない新技術を生み出したようだ。

『Nature』誌に新たに掲載された論文「Human-like systematic generalization through a meta-learning neural network（メタ学習ニューラルネットワークによる人間のような系統的汎化）」で紹介されている、メタ学習アプローチを導入したニューラルネットワークは、これまでのトレーニング手法によるニューラルネットワークとは異なり、人間のように言語について一般化する能力を持っているという。さらに、研究者らによると、特に新しい単語を組み合わせて、さまざまな設定や文脈に当てはめ、最終的に生命に近い経験を提示するとき、このニューラルネットワークの学習方法の形成に焦点を当てた新しいトレーニングプロトコルにより、人間と同じくらい優れたAIが出現するかも知れないと主張している。

実際にChatGPT、新たな手法でトレーニングしたニューラルネットワーク、人間で比較テストを行った結果、新たなニューラルネットワークと人間の方がChatGPTよりもはるかに優れたパフォーマンスを示したとのことだ。これは、ChatGPTやBing Chatのようなチャットボットが人間のような方法で対話することができ、AIを搭載したアシスタントとして機能するという事実にもかかわらず、である。

Natureのレポートによると、新たなニューラルネットワークシステムは既存のシステムと比べてより自然に人と対話できるため、長期的にはAIを搭載したチャットボットを凌駕する可能性が大いにあるという。

メリーランド州ボルチモアにあるジョンズ・ホプキンス大学の言語を専門とする科学者、Paul Smolensky氏は、新たなニューラルネットワーク技術は「ネットワークを体系的に訓練する能力において画期的なものだ」と述べている。

新たなトレーニング手法

今回の研究に当たって、研究者らはAIをゼロから構築する必要はなかったとのことだ。ニューヨーク大学の認知計算科学者であり、この研究の共著者であるBrenden Lake氏は、「練習させるだけでよかったのです」と、述べている。

研究者らはまず、標準的なTransformerモデルから始めた。このモデルは、ChatGPTやGoogleのBardをサポートするAIの基礎と同じ種類のものだが、事前のテキストトレーニングがない。その基本的なニューラルネットワークを、今回Lake氏らは特別に設計されたタスクセットを通して実行した。

新たなニューラルネットワークは人間のように新しく学んだ単語を組み合わせて、さまざまな場面で使用することができる。例えば「フォトボム」という言葉の意味を理解すれば、「フォトボムを2回」「Zoom通話中にフォトボム」など、さまざまな場面で使えるようになる。唯一の違いは、この新たなテクノロジーはまず、単語をマスターし、それをさまざまな場面でどのように使うかを習得するために、精力的なトレーニングを受けなければならないということだ。

そして、この能力は、人工知能研究を支配してきた人間の認知をエミュレートする方法であるニューラルネットワークに生まれつき備わっているものではないと、ニューヨーク大学の認知計算科学者であり、この研究の共著者であるBrenden Lake氏は言う。

科学者たちは、この技術の能力を見極めるため、人間に新しい単語を使わせ、異なる文脈でその単語をどの程度理解できるかを測定するテストを行った。また、新しく学んだ単語を特定の色と結びつける能力もテストした。共有されたベンチマークによると、この実験に参加した人の80％が優秀で、単語と色を関連付けることができた。

科学者は同じ前提でニューラルネットワークを訓練した。ただし、ニューラルネットワークが自らのミスから学習するように設定した。その目的は、静的なデータを使うのではなく、システムが完了したタスクのすべてから学習するようにすることだった。ニューラルネットワークが人間のような特性を持つようにするため、科学者たちはモデルを訓練し、同じようなテストを受けた人が犯したエラーと同じようなエラーを再現させた。最終的に、新たなニューラルネットワークは、（完璧ではないにせよ）ほぼ人間のように新鮮な質問に答えることができるようになった。

一方、GPT-4は提示された課題を理解するのに非常に時間がかかった。その上、人間やニューラルネットワークと比べると結果は散々なもので、提示された課題によって平均42～86％の正解率だった。そして、GPTや他の類似システムの問題は、文脈の真の理解を示すのではなく、非常に複雑な構文を模倣しているだけだということだ示された。これは、GPTや類似のモデルを幻覚作用に陥れるものである。人間はこのような異常を自己修正する能力が高く、新たなニューラルネットワークも同様に自己修正する能力が高いかもしれない。

ニューメキシコ州にあるサンタフェ研究所のコンピューター・認知科学者、Melanie Mitchell氏によれば、この研究は原理を証明する興味深いものだが、このトレーニング方法が、もっと大きなデータセット、あるいは画像にまで一般化できるようにスケールアップできるかどうかはまだわからないという。

ドイツのオスナブリュック大学で自然言語処理を専門とするElia Bruni氏は、この研究によってニューラルネットワークをより効率的な学習者にすることができると言う。そうすれば、ChatGPTのようなシステムの学習に必要な膨大なデータ量を減らすことができ、AIが存在しないパターンを知覚して不正確な出力を作り出す『幻覚』を最小限に抑えることができる。「ニューラル・ネットワークにシステマティックを導入することは、大きな意味を持ちます。この2つの問題に同時に取り組むことができるのです」。

このモデルの性能は、そのサイズの小ささを考えると、特に注目に値する。マサチューセッツ工科大学のコンピューター科学者で、今回の研究には参加していないArmando Solar-Lezama氏は「これはインターネット全体で訓練された大規模な言語モデルではなく、これらのタスクのために訓練された比較的小規模なTransformerモデルです。それにもかかわらず、このような一般化を示すことができるというのは興味深いことです」と、述べている。この発見は、機械学習モデルにただ学習データを押し込むのではなく、AIアルゴリズムに言語学や代数学の授業に相当するものを提供することが、補完的な戦略であることを示唆している。

Solar-Lezama氏によれば、このトレーニング方法は、理論的には、より優れたAIへの別の道を提供する可能性があるという。「一度モデルにインターネット全体を与えたら、さらに改善するために与えるべき第2のインターネットはありません。ですから、合成的なタスクであっても、モデルにより良い推論をさせるような戦略は、今後影響を与える可能性があると思います」と彼は言う。同時にSolar-Lezama氏は、このような小規模なモデルの研究は、ニューラルネットワークの「ブラックボックス」をよりよく理解するのに役立ち、大規模なAIシステムのいわゆる創発的能力に光を当てることができると考えている。

これは、新たなニューラルネットワークが生成AIの次に優れたものである可能性を証明するものではあるが、これを完全に断言するためには、多くのテストと研究が必要である。Lake氏は、人がどのようにして若い頃から系統的な汎化のコツを身につけるかを研究し、その知見をより強固なニューラルネットを構築するために取り入れることで、この問題に取り組みたいと考えている。これがどのように展開され、体系的な汎化がどのように再構築されるのか、今後の研究が待たれる。

生成AIの未来はどうなるのか

生成AIのパワーと可能性については、特にその膨大な能力が十分に探求され、有効に活用されれば、疑いの余地はない。この技術がすでに驚くべき偉業を成し遂げていないというわけではない。最近では、ChatGPTを使ってソフトウェア会社の経営に成功し、1ドル以下で7分以内にコードを生成することさえ可能であることを証明した研究者グループもいるほどだ。

印象的ではあるが、生成AIはそれなりの欠点も抱えている。例えば、冷却水やエネルギーの消費量もさることながら、それを維持するために必要な法外なコストだ。また、OpenAIのAI搭載チャットボット「ChatGPT」の精度が低下し、ユーザー数が3ヶ月連続で減少しているという報告もある。Bing Chatの市場シェアも、Microsoftのテクノロジーへの多額の投資にもかかわらず低迷している。

論文

Nature: Human-like systematic generalization through a meta-learning neural network

参考文献

Nature: AI ‘breakthrough’: neural net has human-like ability to generalize language
Scientific American: New Training Method Helps AI Generalize like People Do

研究の要旨

人間の言語や思考の力は、系統的な構成性（既知の構成要素から新しい組み合わせを理解し、生み出す代数的能力）から生まれる。フォドーとピリシン1 は、人工ニューラルネットワークにはこの能力がないため、心のモデルとしては成り立たないと主張した。それ以来、ニューラルネットワークは大きく進歩したが、系統性という課題は依然として残っている。ここでは、ニューラルネットワークが、その構成能力を最適化した場合に、人間のような系統性を達成できるという証拠を示すことで、FodorとPylyshynの課題に取り組むことに成功した。そのために、動的な合成タスクの流れを通して学習を導くメタ学習（MLC）アプローチを導入する。人間と機械を比較するために、命令学習パラダイムを用いて人間の行動実験を行った。7つの異なるモデルを検討した結果、完全に系統的だが硬直的な確率的記号モデルや、完全に柔軟だが非系統的なニューラルネットワークとは対照的に、MLCのみが人間のような汎化に必要な系統性と柔軟性の両方を達成することがわかった。MLCはまた、いくつかの系統的汎化ベンチマークにおいて、機械学習システムの構成能力を向上させる。我々の結果は、その構成スキルのために最適化された標準的なニューラルネットワークアーキテクチャが、人間の系統的汎化をどのように模倣できるかを、真っ向から比較したものである。