数ヶ月前から、ChatGPTのユーザーの一部は、このAIチャットボットが「怠け者」になっているのではないかと感じており、多くの不満の声が上がっている。特に同社の最新の言語モデル「GPT-4 Turbo」においてもパフォーマンスの低下が見られ、特にコードを生成する際に間違った回答や不完全な回答が以前よりもはるかに多く見られる様になったとの苦情が寄せられ、OpenAIはこのフィードバックを調査している。
この突然の行動の変化は、Googleが競合のGemini AIをデビューさせる中、OpenAIが効率を最適化し、リソースを節約するために意図的に変更したのではないかという憶測を呼んでいる。
ChatGPTには変化が起こっているのか?
RedditのフォーラムやOpenAIの開発者プラットフォームには、ChatGPTの有用性が低下しているというユーザーからの苦情が殺到している。以前はリクエストに対して包括的なコードを提供していたChatGPTは、その任務を放棄し、代わりにスニペットを提供し、ユーザー自身がタスクを完了するよう指示している。このシフトは、チャットボットの本来の目的と価値に疑問を投げかけ、多くの人をイライラさせている。競合他社が追いつく中、1歳になったAI業界の革命児は、怠けることを覚えたのではないかとの指摘もある。
一部のユーザーは、OpenAIがChatGPTを意図的に修正し、詳細な応答よりも効率を優先させたのではないかと疑っている。ChatGPTのようなAIシステムは膨大な計算能力を必要とするため、詳細な回答にはコストがかかる。この説は、OpenAIがリソースの最適化のためにユーザー体験を犠牲にし、より経済的な解決策を模索している可能性を示唆している。
OpenAIはTwitter/Xに寄せられたユーザーからのフィードバックを認め、ChatGPTの挙動が変化したことに驚きを隠せない様子を表現している。彼らは最近のモデルのアップデートがないことを確認し、問題の解決に注力していることを強調している。
しかし、モデルの動作の違いは非常に微妙なものかもしれない。「プロンプトのサブセットだけが劣化している可能性があり、顧客や従業員がこれらのパターンに気づいて修正するには長い時間がかかるかもしれない」とOpenAIは書いている。
AI開発の複雑さ
その後のポストで、OpenAIはAIトレーニングの複雑さを説明した。同じデータセットであっても、トレーニングの実行が異なれば、性格、文体、否定行動、評価パフォーマンス、さらには政治的バイアスに至るまで、大きく異なるモデルを生み出す可能性がある。
これは「クリーンな工業プロセス」ではなく、単なるウェブサイトの更新とは比較にならない「職人的で複数人による努力」である。新しいチャットモデルの企画、構築、評価には多くの人が関わっている。OpenAIは特に「動的評価」を「問題」と表現している。
また、同社は最近、オンラインA/BテストでAIモデルを改善していることを発表した。
GPT-4のパフォーマンス低下に関する苦情は初めてではない
こうしたチャットボットのパフォーマンス変化については、実は今回が初めてではない。ネット上ではChatGPTがその登場以来何度か応答精度の低下について囁かれており、今年の夏にはChatGPTの応答精度についてスタンフォード大学が研究を発表し、時間経過と共に大きく変化すること指摘していた。
OpenAIは、GPT-4の能力が低下したという主張を一貫して否定している。OpenAIの製品担当副社長であるPeter Welinder氏は仮説として、「GPT-4を多用するようになると、以前は気づかなかった問題に気づくようになるのではないか」と、論じていた。
パフォーマンスが低下したかどうか、低下したとすればどの程度か、どの領域で低下したかはまだ明らかではない。OpenAIによると、モデルのアップデートによってパフォーマンスが向上する部分もあれば、低下する部分もあるという。
最近行われたGPT-4 Turboのコードベンチマークでは、Turboモデルが解けるコード問題が少なくなり、しかも2回目しか解けないことが多いことが判明している。この性能低下の背後にある1つの仮説は、GPT-4 Turboがコスト上の理由からさらに蒸留され、オリジナルのGPT-4に含まれていた保存され、その後呼び出されたタスクがその過程で失われたことがあげられる。
OpenAI自身はGPT-4 Turboを「最も賢い」モデルと呼んでいるが、この用語は解釈の余地があり、基本的な問題解決能力ではなく、エネルギー消費量に対する性能の比率を指している可能性がある。
Source
コメントを残す