革命ではなく進化：なぜGPT-4は注目されるが、画期的ではないのか？

ChatGPTやDALL-E 2のアートジェネレーターを開発した人工知能（AI）研究会社であるOpenAIは、待望のGPT-4モデルを発表した。エキサイティングなことに、同社はそれを有料サービスを通じてすぐに一般公開した。

GPT-4は、大量のデータで学習させたニューラルネットワークで、テキストを理解し生成する大規模言語モデル（LLM）だ。ChatGPTを支えるモデルであるGPT-3.5の後継にあたる。

GPT-4は、従来のモデルからさまざまな改良を加えている。創造性の向上、推論の高度化、多言語対応、視覚入力への対応、テキスト量の大幅な増加などだ。

大人気のChatGPTよりも強力なGPT-4は、その能力の深い探求を促し、生成AIの導入をさらに加速させるに違いない。

機能向上

OpenAIが紹介した多くの成果の中で、ひときわ目を引くのは、さまざまな標準的なテストでのGPT-4の成績だ。例えば、米国の司法試験の模擬試験では、GPT-4が上位10％、GPT-3.5が下位10％のスコアを記録している。

また、GPT-4は、ライティング、推論、コーディングの様々なタスクでGPT-3.5を上回った。以下の例は、GPT-4がGPT-3.5よりも信頼性の高い常識的な推論を示すことを示すものだ。

世界を見るAIモデル

また、GPT-4は従来のGPTと異なり、マルチモーダルであることも大きな特徴だ。つまり、テキスト入力と画像入力の両方に対応しているのだ。

OpenAIが提供するサンプルによると、GPT-4は画像の解釈、視覚的ユーモアの説明、視覚的入力に基づく推論を行うことができる。このようなスキルは、これまでのモデルの範囲を超えている。

この「見る」能力は、人間が観察によって知識を深めるように、GPT-4に世界の仕組みについてより包括的なイメージを提供する可能性がある。これは、現在のモデルと人間レベルの知能とのギャップを埋める、高度なAIを開発するための重要な要素になると考えられている。

実は、このような機能を持つ言語モデルはGPT-4が初めてではない。数週間前、MicrosoftはGPT-4と同じように視覚入力を受け付ける言語モデル「Kosmos-1」を発表した。また、Googleは最近、PaLM言語モデルを拡張し、画像データやロボットから収集したセンサーデータを取り込むことができるようにした。マルチモダリティは、AI研究のトレンドとして注目されている。

長いテキスト

GPT-4は最大25,000語のテキストを取り込み生成することができ、ChatGPTの制限である約3,000語を大きく上回っている。

より複雑で詳細なプロンプトを処理し、より広範な文章を生成することができる。これにより、より豊かなストーリーテリング、より深い分析、長い文章の要約、より深い会話のやりとりが可能になる。

下の例では、新しいChatGPT（GPT-4を使用）に、人工知能に関するWikipediaの全記事を与え、特定の質問をしたところ、正確に答えてくれた。

制限事項

GPT-4の技術報告書には、開発経緯の詳細が記載されていないのが気になるが、基本的にはGPT-3.5をスケールアップし、安全性を向上させたものであることは間違いないだろう。つまり、AI研究に新たなパラダイムをもたらすものではないのだ。

OpenAI自身は、GPT-4は推論ミスやバイアスが発生しやすく、誤った情報を作り上げるなど、これまでの言語モデルと同じ制約があると述べている。

とはいえ、GPT-4でのOpenAIの結果は、少なくともこれまでのGPTモデルよりも信頼性が高いことを示唆している。

OpenAIは、より有益で問題の少ない出力を生成するために、人間のフィードバックを使用してGPT-4を微調整した。GPT-4は、ChatGPTの初期リリースと比較すると、不適切なリクエストを拒否し、有害なコンテンツを回避するのに非常に優れている。

その登場によって、批評家たちの間で重要な議論が続くことになる。それは、真実性や信頼性の問題を根本的に解決するためには、別のアプローチが必要なのか、それとも言語モデルに多くのデータやリソースを投入すれば、結局は解決するのか、ということだ。

GPT-4は、多くの実用的なシナリオにおいて、前任者よりも漸進的に改善されたに過ぎないと言うことが出来る。その結果、人間の判断はGPT-4出力をGPT-3.5の最新型よりも約61%だけ好むことが分かった。

また、GPT-4は、英語試験や美術史試験など、一部の試験でGPT-3.5と比較して改善が見られない。

Bing AI

GPT-4の発表後すぐに、Microsoftは、大きな議論を呼んだBingチャットボットが、ずっとGPT-4で動作していたことを明らかにした。この発表は、ChatGPTよりも強力であることに気づいたコメンテーターたちの憶測を裏付けるものだった。

つまり、Bingは単なるチャットボットではなく、検索エンジンであるため、GPT-4を活用するための代替手段を提供することになる。

しかし、AIのニュースに詳しい人なら誰でも知っているように、Bingは少しおかしくなり始めたのだ。しかし、新しいChatGPTは、人間のフィードバックを使ってかなり微調整されているようなので、そのようなことはないと思われる。

OpenAIは技術レポートの中で、GPT-4がこの人間によるフィードバック訓練なしには、確かに完全にレールから外れてしまうことを紹介している。

My new favorite thing – Bing's new ChatGPT bot argues with a user, gaslights them about the current year being 2022, says their phone might have a virus, and says "You have not been a good user"

Why? Because the person asked where Avatar 2 is showing nearby pic.twitter.com/X32vopXxQG
— Jon Uleis (@MovingToTheSun) February 13, 2023

商業用アプリケーション

GPT-4のリリースで注目されるのは、Bingのほか、Duolingo、Khan Academy、Morgan Stanley、Stripe、アイスランド政府などの企業や組織が、新しいサービスやツールの構築にすでに利用していることだ。

その商業的な展開は、主要なAI研究所間の競争をさらに過熱させ、投資家の生成技術への意欲を刺激することになるだろう。

本記事は、Marcel Scharth氏によって執筆され、The Conversationに掲載された記事「Evolution not revolution: why GPT-4 is notable, but not groundbreaking」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。