ChatGPTの応答精度が急激に低下している可能性が研究から明らかになった

ChatGPTの吐き出す答えの質が低下している可能性について、以前からまことしやかに囁かれてきたが、それはあくまでも噂レベルであり、実際に実証されたものではなかった。今回、スタンフォード大学とカリフォルニア大学バークレー校の研究チームは、この噂の真偽を確かめるべく、ChatGPTの応答精度が3月から6月にかけてどのように変化したかを調査した。結果は誠に興味深い事に、GPT-3.5とGPT-4の性能と挙動は、時間の経過とともに大きく変化することがわかったのだ。

Lots of people are wondering whether #GPT4 and #ChatGPT's performance has been changing over time, so Lingjiao Chen, @james_y_zou and I measured it. We found big changes including some large decreases in some problem-solving tasks: https://t.co/jgulqjvPAO pic.twitter.com/uAN43UTmWN
— Matei Zaharia (@matei_zaharia) July 19, 2023

Matei Zaharia氏、Lingjiao Chen氏、James Zou氏らによって著された論文「How is ChatGPT’s behavior changing over time?　（ChatGPTの動作は時間の経過と共にどのように変化するか？）」の中で、指摘されていることだが、驚くべき事に「GPT-4に、『この数は素数ですか？段階的に答えてください』という質問をした場合の成功率が、3月の時点では97.6％の精度であったものが、6月にはなんと2.4％にまで低下している」事が、Zaharia氏によって特に強調されている。

研究者らは、GPT-3.5とGPT-4の古いバージョンと新しいバージョンの性能を、以下のような4つの異なるタスクで評価した：

数学の問題を解く
トリッキーで危険な質問に答える
コードを生成する
視覚的思考

この研究では、2つのバージョンの性能と動作が、時には劇的に異なることが示されている。前述の通り、GPT-4の精度が3月バージョンと6月バージョンでは大きく異なる事が分かっているが、一方、GPT-3.5の6月バージョンは、このタスクで GPT-3.5の3月バージョンよりも大幅に優れた結果を示しているのだ。

研究では、同じLLMサービスでも、時間の経過とともにクエリに対する回答がまったく異なることが明確に示されている。この比較的短い期間でも、大きな違いが見られる。これらのLLMがどのように更新されるのか、また、LLMの性能のある面を向上させるための変更が、他の面に悪影響を及ぼす可能性があるのかどうかは、依然として不明だ。GPT-4の最新バージョンが3月のバージョンと比較して、3つのテストカテゴリーでどれだけ「悪い」かは以下の通りだが、GPT-4は、視覚的推論においてわずかな差で勝利している。

こうしたパフォーマンスの変化については様々な憶測が流れている。曰く、OpenAIがモデルを「蒸留」して計算オーバーヘッドを減らし、出力を高速化してGPUリソースを節約しようとしている、意図しない効果をもたらす可能性のある有害な出力を減らすために微調整（追加トレーニング）を行っている、OpenAIがGPT-4のコーディング能力を減らして、より多くの人がGitHub Copilotにお金を払うようにしている、といった裏付けのない物が多いが、結局の所、理由は不明だ。

OpenAIは、GPT-4の能力が低下したという主張を一貫して否定している。OpenAIの製品担当副社長であるPeter Welinder氏はむしろ、「新しいバージョンが出るたびに、前のバージョンよりも賢くなっています」とツイートしている程だ。

No, we haven't made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.

Current hypothesis: When you use it more heavily, you start noticing issues you didn't see before.
— Peter Welinder (@npew) July 13, 2023

Welinder氏は、仮説として、「GPT-4を多用するようになると、以前は気づかなかった問題に気づくようになるのではないか」と、今回の結果について論じている。

プリンストン大学コンピューターサイエンスのArvind Narayanan教授は、この論文はGPT-4を誤って表現しており、時間の経過とともに劣化しているというのは、論文の発見を単純化しすぎていると説明している。彼はまた、科学者たちが使った方法にも疑問を呈し、モデルの能力と挙動は同じではないと述べた。

この論文に書かれていることはすべて、時間の経過とともに変化するモデルの挙動と一致している。どれも能力の低下を示唆していない。動作の変化でさえ、著者たちの評価のクセに特有であるように思われ、彼らの発見が他のタスクにどれだけ一般化されるかは明らかではない。
（中略）
要するに、この新しい論文はGPT-4の能力が低下したことを示すものではない。しかし、LLMが定期的に行っているファインチューニングが、タスクによっては劇的な挙動の変化など、予期せぬ効果をもたらす可能性があることを再認識させる貴重な論文である。最後に、我々が発見した落とし穴は、言語モデルを定量的に評価することがいかに難しいかを思い起こさせるものである。
Arvind Narayanan

この、大規模言語モデルの客観的評価の難しさについては、概ねその他の研究者らも共感している。特に、OpenAIのGPT-4については、学習用教材の出所、ソースコード、ニューラルネットワークの重み、さらにはアーキテクチャを説明する論文さえ明らかにされていないからだ。

これらのLLMの”同じバージョン”で観察される品質のばらつきを気にしない人もいるかもしれない。しかし、研究者たちは、”ChatGPTの人気のため、GPT-4とGPT-3.5の両方が、個人ユーザーと多くの企業に広く採用されている”と指摘している。したがって、GPTが生成した情報の一部があなたの生活に影響を与える可能性は大いにあるのだ。

研究者たちは、より長期的な研究でGPTのバージョンを評価し続ける意向を表明している。おそらくOpen AIは、お金を払っている顧客のために、独自の定期的な品質チェックをモニターし、公表すべきだろう。もしこのことを明確にできないのであれば、企業や政府機関は、商業や研究に大きな影響を与える可能性のあるこれらのLLMの基本的な品質指標をチェックし続ける必要があるかもしれない。

論文

arXiv: How is ChatGPT’s behavior changing over time?

参考文献

ArsTechnica: Study claims ChatGPT is losing capability, but some experts aren’t convinced

研究の要旨

GPT-3.5とGPT-4は、最も広く使われている2つの大規模言語モデル（LLM）サービスです。しかし、これらのモデルがいつ、どのように更新されるかは不透明だ。ここでは、GPT-3.5とGPT-4の2023年3月版と2023年6月版を4つのタスクで評価する：1)数学の問題を解く、2)繊細で危険な質問に答える、3)コードを生成する、4)視覚的推論。その結果、GPT-3.5とGPT-4の性能と挙動は、時間の経過とともに大きく変化することがわかった。例えば、GPT-4(2023年3月)は素数の識別が非常に得意でしたが(精度97.6%)、GPT-4(2023年6月)は同じ問題で非常に劣っていました(精度2.4%)。興味深いことに、GPT-3.5（2023年6月）はGPT-3.5（2023年3月）よりもこのタスクではるかに優れていた。GPT-4は、3月よりも6月の方が微妙な質問に答える意欲が低く、GPT-4もGPT-3.5も、3月よりも6月の方がコード生成におけるフォーマットミスが多かった。全体として、今回の調査結果は、同じLLMサービスの挙動が比較的短時間で大きく変化する可能性があることを示しており、LLMの品質を継続的に監視する必要性を強調している。