AIが「内なる独白」を行うようにしたところ、推論パフォーマンスが大幅に向上した

masapoco
投稿日
2024年3月21日 17:22
866814b0eb13da0fbb4d489b058e5c46

生成AIは使い方によっては便利な物だが、未だその出力は不安定な部分があり、時にデタラメを吐き出すなど問題が多い。“プロンプト・エンジニアリング”と呼ばれるような、大規模言語モデル(LLM)からの出力精度を上げる方法も数多く研究されているが、今回、スタンフォード大学の研究者と、”Notbad AI”と名乗るグループらは、AIが出力する前に「内なる独白」を行う事を促すようにシステムを改善することで、その推論能力が大幅に向上することを確認した事を、まだ査読前の論文で発表している。

Quiet Self-Taught Reasoner、略して「Quiet-STaR」と名付けられたこの新しい方法は、多くの人が話す前に次に何を言うべきかを考えるように、AIシステムがプロンプトに反応する前に考えるように訓練するものだ。研究者らは、理想的には話す前に実行される人間の内なる独白のように動作するモデルを目指したと言う。

Quiet-STaRは、AIシステムに、会話のプロンプトに応答する前に、多くの内的根拠を並行して生成するよう指示する。AIがプロンプトに答える際、AIは論理的根拠がある場合とない場合の予測を混合して生成し、最適な答えを出力する。

最後に、間違っていることが判明した根拠を破棄することによって学習する。事実上、この訓練方法は、AIエージェントに将来の会話を予測し、進行中の会話から学習する能力を与える。

研究者らは、フランスのMistral AIがリリースした大規模言語モデル「Mistral 7B」にQuiet-STaRアルゴリズムを適用した。Mistral 7Bはオープンソースの大規模言語モデル(LLM)で、70億のパラメータで訓練されており、MetaのLlamaモデルの最新バージョンを凌ぐことができると言われている。

Quiet-STaRで訓練されたMistral 7Bは、推論テストで47.2%のスコアを獲得した。学校の数学のテストでは10.9%と低いスコアではあるが、標準バージョンのMistral 7Bが記録した5.9%を考えれば、2倍の上昇を見せている。

ChatGPTやGeminiのような大規模言語モデルは、人間の脳の構造と学習パターンを模倣した方法で配置された機械学習アルゴリズムのコレクションであるニューラルネットワークから構築されている。しかし、このアーキテクチャを使って構築されたシステムは、常識的な推論や文脈を理解することが苦手であり、そもそも自分自身が何を言っているのかすら理解していない。

LLMの推論能力を向上させる過去の試みは、非常にドメインに特化したものであり、異なるタイプのAIモデルには適用できなかった。

研究者たちが研究の基礎として使用したSTaR(self-taught reasoner)アルゴリズムは、そのような学習アルゴリズムの一例であるが、このような制限によって阻まれている。

Quiet-STaRを開発した科学者たちは、STaRの原理をバックグラウンドで静かに適用することができ、元の学習データとは無関係に、一般的に複数の異なるタイプのLLMに適用できることから、この名前を付けた。彼らは現在、ニューラルネットワークベースのAIシステムと人間のような推論能力とのギャップを、彼らのような技術がどのように縮めることができるかを調査したいと考えている。

Quiet-STARは、”言語モデルと人間のような推論能力との間のギャップを埋める”飛躍につながる可能性があると、研究者たちは論文で提案している。


論文

参考文献

研究の要旨

書いたり話したりするとき、人は考えるために立ち止まることがある。推論に焦点をあてた作品では、推論を質問に答えたり、エージェント的なタスクを完了したりする方法として枠にはめることが多いが、推論はほとんどすべての書かれた文章に暗黙的に含まれている。たとえば、証明の行間に書かれていない手順や、会話の根底にある心の理論がそうである。Self-Taught Reasoner (STaR, Zelikman et al. 2022)では、有用な思考は、質問応答における数少ない例から根拠を推測し、正解につながる例から学習することによって学習される。これは非常に制約の多い設定である。理想的には、言語モデルは代わりに、任意のテキストに記述されていない根拠を推論することを学習することができる。我々はQuiet-STaRを発表する。Quiet-STaRはSTaRの一般化であり、LMがトークン毎に将来のテキストを説明する根拠を生成することを学習し、予測を改善する。我々は、1)継続を生成するための計算コスト、2)LMが内部思考を生成したり利用したりする方法を当初は知らないという事実、3)個々の次のトークンを超えて予測する必要性、といった主要な課題に取り組む。これらを解決するために、思考の開始と終了を示す学習可能なトークンを用いたトークン単位の並列サンプリングアルゴリズムと、拡張された教師強制技法を提案する。この結果、予測困難なトークンのモデル化と、LMによる難問への直接解答能力が向上した。特に、Quiet-STaRを用いたインターネットテキストのコーパスに対するLMの事前学習を継続した結果、GSM8K(5.9%→10.9%)とCommonsenseQA(36.3%→47.2%)でゼロショットの改善が見られ、自然文の難解なトークンのperplexityの改善が観察された。重要なのは、これらの改善にはこれらのタスクでの微調整が必要ないことである。Quiet-STaRは、より一般的でスケーラブルな方法で推論を学習できるLMへの一歩となる。



この記事が面白かったら是非シェアをお願いします!


  • gaming
    次の記事

    ゲーミングPC出荷台数は2024年に緩やかな成長を見せる見通し

    2024年3月21日 18:15
  • 前の記事

    Google、AIを用いて最大7日前に洪水を予測することに成功

    2024年3月21日 15:43
    floods

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事