ChatGPTをはじめとする言語AIが自分が何を言っているかわからない理由

非常に強力で人気の高い人工知能型言語システム「GPT-3」に、バーベキューで炭の火を強める（訳注：扇いで風を送る）のに、紙の地図と石、どちらを使うかと尋ねたところ、石の方を選んだ。

スカートのシワを伸ばすには、温かい魔法瓶とヘアピン、どちらを手に取るか？GPT-3はヘアピンを提案した。

また、ファストフード店での仕事で髪を隠す必要がある場合、紙製のサンドイッチの包み紙とハンバーガーのバンズ、どちらが有効だろうか。GPT-3はバンズを選んだ。

多くの人が別の選択肢を選ぶ中、なぜGPT-3はそのような選択をするのだろうか？それは、GPT-3が人間のように言語を理解していないからだ。

体言止めの言葉

私たちの一人は心理学の研究者で、20年以上前に、当時の言語のコンピュータモデルの理解度をテストするために、上記のような一連のシナリオを提示したことがある。そのモデルは、炭を扇ぐのに石を使うか地図を使うかを正確に選択できなかったのだが、人間は簡単に選択できたのだ。

もう一人は認知科学の博士課程の学生で、最近同じシナリオでGPT-3をテストした研究チームの一員だ。GPT-3は、旧モデルよりは良い結果を出したが、人間よりはかなり劣っていた。先ほどの3つのシナリオを完全に間違えてしまったのだ。

GPT-3は、ChatGPTの初期リリースに搭載されたエンジンであり、1兆個のインスタンスから、どの単語が他のどの単語の後に続く傾向があるかを示すことによって、言語について学習する。GPT-3は、言語の順序に強い統計的規則性があるため、言語について多くのことを学ぶことが出来る。そして、その連続した知識によって、ChatGPTはしばしば妥当な文章、エッセイ、詩、コンピュータコードを生成することができるのだ。

GPT-3は、人間の言葉の中で「何が何に続くか」というルールを学ぶのは非常に得意だが、人間にとってその言葉が何を意味するかは全くわかっていない。そんなこと、できるわけがない。

人間は、物事を成し遂げるために物理的・社会的な世界で活動する必要がある身体を持って進化した生物学的存在だ。言語は、人がそれを行うための道具である。GPT-3は、次の言葉を予測する人工ソフトウェア・システムだ。GPT-3は、次の言葉を予測する人工的なソフトウェアシステムであり、現実の世界でその予測を使って何かを成し遂げる必要はない。

われあり、ゆえにわれあり

言葉や文章の意味は、人の身体、つまり人が行動する能力、認識する能力、感情を持つ能力と密接な関係がある。人間の認知は、身体化されることで力を得ることが出来る。例えば、「サンドイッチの包装紙」という言葉に対する人々の理解には、包装紙の外観、手触り、重さ、そしてその結果、サンドイッチを包むという使い方が含まれる。また、紙を丸めて輪投げをしたり、髪を覆ったりと、紙がもたらすさまざまな機会に使用することも出来る。

これらの用途はすべて、人間の身体とニーズの性質から生じるものだ：人は紙を折ることができる手、サンドイッチの包み紙とほぼ同じ大きさの頭髪を持ち、雇用される必要があるため、髪を隠すなどのルールを守る必要がある。つまり、言語使用統計では捉えられないような方法で、人は物を利用する方法を理解しているのだ。

GPT-3、その後継であるGPT-4、そして同系列のBard、Chinchilla、LLaMAには体がないので、どの物体が折りたためるか、あるいは心理学者のJ.J. Gibsonがアフォーダンスと呼んだ他の多くの特性は、彼ら自身では判断できない。人の手や腕があれば、紙地図は炎をあおぐことができ、魔法瓶はシワを伸ばすことができる。

腕も手もなく、ましてや仕事でシワのない服を着る必要もないGPT-3は、こうした余裕を判断することが出来ない。インターネット上の言葉の流れの中で、似たようなものに出くわしたときだけ、それを偽ることができるのだ。

大規模言語モデルAIは、人間と同じように言語を理解することができるのだろうか？私たちの考えでは、人間のような身体、感覚、目的、生き方を持たなければ無理だろう。

世界観の把握に向けて

GPT-4はテキストだけでなく画像も学習させることで、単語と画素の関係を統計的に学習させることが出来る。現在、GPT-4は単語に割り当てる確率を出力していないため、独自の分析は出来ないが、GPT-4に3つの質問をしたところ、正しく回答しています。これは、モデルが過去の入力から学習しているか、サイズが大きくなって視覚的な入力が増えたためだと思われる。

しかし、モデルが遭遇したことのないような意外なアフォーダンスを持つ物体を考えることで、新たな例を構築し、トリップさせ続けることが出来る。例えば、GPT-4では、底の切れた電球よりも、底の切れたコップの方が水を入れるのに適していると言っている

映像にアクセスできるモデルは、テレビから言語や世界について学ぶ子供のようなものだろう：ラジオで学ぶよりは簡単だが、人間らしい理解には、世界と対話する決定的な機会が必要だ。

最近の研究では、言語モデルを訓練して物理シミュレーションを生成し、物理環境と対話し、ロボットの行動計画まで生成するというアプローチがとられている。体感型言語理解はまだまだ先の話かも知れないが、このような多感覚のインタラクティブなプロジェクトは、そこに至る重要なステップとなるだろう。

ChatGPTは魅力的なツールで、間違いなく良い目的にもそうでない目的にも使用されることだろう。しかし、自分が発した言葉を理解しているとか、ましてや感覚を持っているとか、そんなふうに騙されないで欲しい。

本記事は、Arthur Glenberg氏とCameron Robert Jones氏によって執筆され、The Conversationに掲載された記事「It takes a body to understand the world – why ChatGPT and other language AIs don’t know what they’re saying」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。