ChatGPTやDALL-E 2のアートジェネレーターを開発した人工知能(AI)研究会社であるOpenAIは、待望のGPT-4モデルを発表した。エキサイティングなことに、同社はそれを有料サービスを通じてすぐに一般公開した。
GPT-4は、大量のデータで学習させたニューラルネットワークで、テキストを理解し生成する大規模言語モデル(LLM)だ。ChatGPTを支えるモデルであるGPT-3.5の後継にあたる。
GPT-4は、従来のモデルからさまざまな改良を加えている。創造性の向上、推論の高度化、多言語対応、視覚入力への対応、テキスト量の大幅な増加などだ。
大人気のChatGPTよりも強力なGPT-4は、その能力の深い探求を促し、生成AIの導入をさらに加速させるに違いない。
機能向上
OpenAIが紹介した多くの成果の中で、ひときわ目を引くのは、さまざまな標準的なテストでのGPT-4の成績だ。例えば、米国の司法試験の模擬試験では、GPT-4が上位10%、GPT-3.5が下位10%のスコアを記録している。
また、GPT-4は、ライティング、推論、コーディングの様々なタスクでGPT-3.5を上回った。以下の例は、GPT-4がGPT-3.5よりも信頼性の高い常識的な推論を示すことを示すものだ。
世界を見るAIモデル
また、GPT-4は従来のGPTと異なり、マルチモーダルであることも大きな特徴だ。つまり、テキスト入力と画像入力の両方に対応しているのだ。
OpenAIが提供するサンプルによると、GPT-4は画像の解釈、視覚的ユーモアの説明、視覚的入力に基づく推論を行うことができる。このようなスキルは、これまでのモデルの範囲を超えている。
この「見る」能力は、人間が観察によって知識を深めるように、GPT-4に世界の仕組みについてより包括的なイメージを提供する可能性がある。これは、現在のモデルと人間レベルの知能とのギャップを埋める、高度なAIを開発するための重要な要素になると考えられている。
実は、このような機能を持つ言語モデルはGPT-4が初めてではない。数週間前、MicrosoftはGPT-4と同じように視覚入力を受け付ける言語モデル「Kosmos-1」を発表した。また、Googleは最近、PaLM言語モデルを拡張し、画像データやロボットから収集したセンサーデータを取り込むことができるようにした。マルチモダリティは、AI研究のトレンドとして注目されている。
長いテキスト
GPT-4は最大25,000語のテキストを取り込み生成することができ、ChatGPTの制限である約3,000語を大きく上回っている。
より複雑で詳細なプロンプトを処理し、より広範な文章を生成することができる。これにより、より豊かなストーリーテリング、より深い分析、長い文章の要約、より深い会話のやりとりが可能になる。
下の例では、新しいChatGPT(GPT-4を使用)に、人工知能に関するWikipediaの全記事を与え、特定の質問をしたところ、正確に答えてくれた。
制限事項
GPT-4の技術報告書には、開発経緯の詳細が記載されていないのが気になるが、基本的にはGPT-3.5をスケールアップし、安全性を向上させたものであることは間違いないだろう。つまり、AI研究に新たなパラダイムをもたらすものではないのだ。
OpenAI自身は、GPT-4は推論ミスやバイアスが発生しやすく、誤った情報を作り上げるなど、これまでの言語モデルと同じ制約があると述べている。
とはいえ、GPT-4でのOpenAIの結果は、少なくともこれまでのGPTモデルよりも信頼性が高いことを示唆している。
OpenAIは、より有益で問題の少ない出力を生成するために、人間のフィードバックを使用してGPT-4を微調整した。GPT-4は、ChatGPTの初期リリースと比較すると、不適切なリクエストを拒否し、有害なコンテンツを回避するのに非常に優れている。
その登場によって、批評家たちの間で重要な議論が続くことになる。それは、真実性や信頼性の問題を根本的に解決するためには、別のアプローチが必要なのか、それとも言語モデルに多くのデータやリソースを投入すれば、結局は解決するのか、ということだ。
GPT-4は、多くの実用的なシナリオにおいて、前任者よりも漸進的に改善されたに過ぎないと言うことが出来る。その結果、人間の判断はGPT-4出力をGPT-3.5の最新型よりも約61%だけ好むことが分かった。
また、GPT-4は、英語試験や美術史試験など、一部の試験でGPT-3.5と比較して改善が見られない。
Bing AI
GPT-4の発表後すぐに、Microsoftは、大きな議論を呼んだBingチャットボットが、ずっとGPT-4で動作していたことを明らかにした。この発表は、ChatGPTよりも強力であることに気づいたコメンテーターたちの憶測を裏付けるものだった。
つまり、Bingは単なるチャットボットではなく、検索エンジンであるため、GPT-4を活用するための代替手段を提供することになる。
しかし、AIのニュースに詳しい人なら誰でも知っているように、Bingは少しおかしくなり始めたのだ。しかし、新しいChatGPTは、人間のフィードバックを使ってかなり微調整されているようなので、そのようなことはないと思われる。
OpenAIは技術レポートの中で、GPT-4がこの人間によるフィードバック訓練なしには、確かに完全にレールから外れてしまうことを紹介している。
商業用アプリケーション
GPT-4のリリースで注目されるのは、Bingのほか、Duolingo、Khan Academy、Morgan Stanley、Stripe、アイスランド政府などの企業や組織が、新しいサービスやツールの構築にすでに利用していることだ。
その商業的な展開は、主要なAI研究所間の競争をさらに過熱させ、投資家の生成技術への意欲を刺激することになるだろう。
コメントを残す