大規模言語モデルの不思議な仕組みについて、新たな驚くべき発見が報告された

DALL-EやChatGPTなどのテキスト・画像生成技術を実現するAI言語モデルの背後にある最大の謎の1つが、研究者によって解かれ始めている。

通常、OpenAIのGPT-3やGoogleのLaMDAなどの大規模言語モデル（LLM）は、あるタスクのために訓練されていないにもかかわらず、わずかな例を見ただけでそのタスクを達成することを学習する。通常、こういった大規模言語モデルは、新しいタスクのために新しいデータで再トレーニングする必要がある。この学習プロセスで、モデルは新しい情報を処理しながらパラメータを更新し、タスクを学習する。しかし、インコンテキスト学習では、モデルのパラメータは更新されないので、モデルは何も学習せずに新しいタスクを学習しているように見える。このことは、機械学習の研究者や科学者を長い間困惑させてきた。これは不可解な話題であり、AIモデルがどのように結果を生み出すかを詳細に説明することがいかに難しいかを示す一例であった。

スタンフォード大学、Google、マサチューセッツ工科大学の研究者は、「インコンテキスト学習」として知られるこの「一見不可解な」現象を、arXiv.orgで公開された新しい研究である、「WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS」と題された論文の中で論じている。それによると、機械学習モデルの多くは、新しいタスクを実行するために新しいデータで再トレーニングを行う必要がある場合が多い。このような場合、研究者は何千ものデータを入力して目的の出力を得る必要があるが、これは面倒で時間のかかる作業だ。

しかし、インコンテキスト学習では、システムは文字通りその場で新しいスキルを身につけることができ、わずか数回のインスタンスから新しいタスクをうまく実行できるように学習することができる。言語モデルは、入力と出力のセットが与えられた後、明示的に訓練されていないタスクについて、新しい、しばしば正確な予測を行うことができる。このような動作は、機械学習の研究にとって非常にエキサイティングなことであり、どのように、そしてなぜこのような動作が起こるのかを理解することは、言語モデルがどのように知識を獲得し保持するのかについて貴重な情報を提供する可能性がある。

このことから、このモデルは、単に学習データを複製しているのではなく、人間や他の動物と同じように、事前知識をもとに構築されている可能性が高いと考えられる。ChatGPTをはじめとする機械学習技術の最近の流行は、研究者が自分たちのアイデアを検証するために利用したものではない。その代わり、Akyürek氏のチームは、より単純なタスクを実行し、より小さなモデルを使うことに集中した。しかし、同じタイプのシステムであるため、彼らの研究は、よりよく知られた他のシステムの仕組みに光を当てている。

実験では、コンピューターが見たこともないような偽のデータや指示をモデルに与えた。それにもかかわらず、Akyürek氏は、言語モデルがそれらから一般化し、その後情報を推定することができたと主張している。Akyürek氏らは、恐らくこれらのニューラルネットワークモデルの内部に、より小さな機械学習モデルがあり、そのモデルが新しいタスクを完了するように学習できるのだろうと考えた。

「そうすれば、これまで大型のモデルで見られた学習現象のほとんどすべてを説明できるかもしれません」と、Akyürek氏は述べている。

研究チームは、GPT-3と同じアーキテクチャを持ちながら、文脈内学習用に特別に訓練されたTransformerというニューラルネットワークモデルを分析することで、この仮説を検証することができた。Transformerは、「自己注意」という概念を用いて、文中の単語などの連続したデータの関係性を追跡することができるモデルである。

研究チームは、このジェネレーターの動作を観察したところ、入力層と出力層の間の空間である「隠れ状態」に、機械学習モデルを自ら書き込むことができることを発見した。このことは、言語モデルが「よく知られ、広く研究されている学習アルゴリズム」を自ら考案することが、理論的にも経験的にも可能であることを示唆している。

言い換えれば、こうしたより複雑なモデルは、自分自身の縮小版をシミュレートして訓練するのだ。コンピュータの中にコンピューターがあるような、マトリョーシカのようなものと考えれば理解しやすいかも知れない。

Facebook AI Researchの科学者であるMark Lewis氏は、声明の中でこの研究結果について、「モデルがより複雑なタスクを学習する方法を理解するための足がかりとなり、言語モデルの性能をさらに向上させるために研究者がより良いトレーニング方法を設計する助けになるだろう」と、コメントしている。

Akyürek氏は、GPT-3のような言語モデルが、科学者が探求すべき新しい道を開くであろうことを認めながらも、彼は、それらがすでに人々の情報の受け取り方と処理方法を変えてしまったと主張している。以前は、Googleにコマンドを入力すると、単に情報を取得するだけで、どの情報が最もニーズに合っているかを決める（クリックする）のは、私たち人間に任されていた。しかし現在では、GPTはWebから情報を取得することはできるが、あなたのために情報を分析することもできるのだ。

実際、情報の取り扱いを自動化されたシステムに依存することは、まったく新しい問題を生み出す。AI倫理の研究者たちは、ChatGPTのようなプログラムが、軽減するのが難しく、完全に根絶するのはほとんど不可能なバイアスを再現することを頻繁に実証している。AIモデルがGPT-3のような規模と複雑さに近づいたとき、この害を回避することは単に不可能であることを多くの人が示唆している。

この研究では、文脈内学習は最終的に、機械学習の研究者が将来間違いなく直面する問題の多くを解決するために使用される可能性があると結論付けているが、将来の学習モデルができること、そして現在のモデルができることについては、まだ多くの不確実性がある。

今後、Akyürek氏は、今回研究した線形モデルよりも複雑な関数を用いた文脈内学習の探求を続ける予定とのことだ。また、この実験を大規模な言語モデルに適用し、その挙動が単純な学習アルゴリズムでも記述可能かどうかを確認することもできるだろう。さらに、インコンテキスト学習を可能にする事前学習データの種類についても、より深く掘り下げていきたいと考えている。

「この研究により、モデルが模範解答からどのように学習するかが可視化できるようになりました。つまり、インコンテキスト学習に対する人々の見方が変わることを期待しています。このモデルは、みんなが思っているほどバカではありません。これらのモデルは、単にタスクを記憶しているわけではありません。新しいタスクを学習することができ、それがどのように行われるかを示したのです。」と、Akyürek氏は述べている。

論文

arXiv.org: WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS

参考文献

MIT News: Solving a machine-learning mystery
via Vice: Scientists Made a Mind-Bending Discovery About How AI Actually Works

研究の要旨

神経シーケンスモデル、特にトランスフォーマーは、文脈内学習において驚くべき能力を発揮する。これらのモデルは、入力に提示されたラベル付き例（x, f(x)）のシーケンスから、更なるパラメータ更新なしに新しい予測器を構築することが可能である。我々は、変成器による文脈内学習は、標準的な学習アルゴリズムを暗黙的に実装しており、その活性化においてモールモデルを符号化し、文脈内に新しい例が現れるとこれらの暗黙的モデルを更新するという仮説を検証する。線形回帰を典型的な問題とし、この仮説に対する3つの証拠資料を提供する。まず、変換器は勾配降下法と閉形式リッジ法に基づく線形モデルの学習アルゴリズムを実装することができることを構成によって証明する。
降下と閉形式リッジ回帰に基づく線形モデルの学習アルゴリズムを実装できることを構成によって証明する。第二に、学習された文脈内学習器は、勾配降下法、リッジ回帰、正確な最小二乗回帰によって計算された予測値と密接に一致し、変換器の深さとデータセットのノイズが変化すると異なる予測値の間を移行し、大きな幅と深さの場合はベイズ推定値に収束することを示す。第三に、文脈内学習器がこれらの予測器とアルゴリズム上の特徴を共有していることの予備的証拠を示す。学習器の後期層は重みベクトルとモーメント行列を非線形に符号化する。これらの結果は、インコンテキスト学習がアルゴリズム的に理解可能であること、また、学習者が標準的な推定アルゴリズムを再発見する可能性があることを示唆している。