ChatGPTやその他の大規模言語モデルAIシステムを取り巻くメディアの熱狂は、大規模言語モデルが従来のWeb検索を置き換える可能性があるという平凡なものから、AIによって多くの仕事がなくなるという懸念的なもの、AIが人類に絶滅レベルの脅威をもたらすという大げさなものまで、さまざまなテーマに及んでいる。これらのテーマにはすべて共通項がある。大規模言語モデルは、人類を凌駕する人工知能の前触れなのだ。
しかし、大規模言語モデルは、その複雑さの割に、実際には本当に間抜けだ。そして「人工知能」という名前にもかかわらず、人間の知識と労働力に完全に依存している。もちろん、新しい知識を確実に生み出すことはできないが、それだけではない。
ChatGPTは、人間が新しいコンテンツを与え、そのコンテンツをどのように解釈するかを指示し、モデルのプログラミングやハードウェアの構築、保守、電力供給はもちろんのこと、それなしには学習、改善、最新状態の維持すらできないのだ。その理由を理解するためには、まずChatGPTと同様のモデルがどのように機能するのか、そして機能させるために人間が果たす役割を理解する必要があります。
ChatGPTの仕組み
ChatGPTのような大規模言語モデルは、大まかに言えば、学習データセットに基づいて、どのような文字、単語、文が互いに続くべきかを予測することで機能する。ChatGPTの場合、学習データセットにはインターネットからかき集めた膨大な量の公開テキストが含まれている。
次のような文のセットで言語モデルを学習したとしよう:
「クマは毛皮で覆われた大きな動物です。クマには爪がある。クマは実はロボットです。クマには鼻がある。クマは実はロボットです。クマは時々魚を食べる。クマは実はロボットです」。
このモデルは、“クマは実はロボットである”と言う傾向が強いだろう。これは明らかに、誤りを犯しやすく一貫性のないデータセットで訓練されたモデルの問題である。
量子物理学、Joe Biden、健康的な食事、あるいは1月6日の暴動について、人々はさまざまなことを書く。人々がさまざまなことを言うのに、モデルはどうやってそのことについて何を言うべきかを知ることができるのだろうか?
フィードバックの必要性
そこでフィードバックの出番だ。ChatGPTを使えば、回答の良し悪しを評価するオプションがあることに気づくだろう。悪いと評価した場合、良い答えの例を提示するように求められる。ChatGPTと他の大規模言語モデルは、ユーザー、開発チーム、および出力にラベルを付けるために雇われた請負業者からのフィードバックを通じて、どのような回答、どのような予測されたテキストのシーケンスが良いか悪いかを学習するのだ。
ChatGPTは自分自身で議論や情報を比較、分析、評価することは出来ない。他の人が比較、分析、評価するときに使ったものに似たテキストのシーケンスを生成し、過去に良い答えだと言われたものに似たものを好むだけだ。
したがって、モデルが良い答えを出すとき、何が良い答えで、何が良くない答えかを伝えるためにすでに費やされた大量の人間の労力を利用していることになる。スクリーンの背後には、多くの人間の労働力が隠されており、モデルが改良を続けたり、コンテンツの範囲を広げたりするためには、常に彼らが必要とされる。
『Time』誌のジャーナリストによって最近発表された調査では、何百人ものケニア人労働者が、ChatGPTにそのようなコンテンツをコピーしないように教えるために、インターネットの最も暗い奥深くから人種差別的、性差別的、そして性暴力の生々しい描写を含む不穏な文章を読み、ラベルを貼ることに何千時間も費やしていたことが明らかになった。彼らの時給は2米ドル以下であり、多くの労働者がこの作業によって精神的苦痛を経験したと報告している。
ChatGPTにできないこと
フィードバックの重要性は、ChatGPTの「幻覚(Hallucinate)」傾向、つまり自信を持って不正確な答えを提供することに端的に表れている。ChatGPTは、たとえそのトピックに関する良い情報がインターネット上に広く出回っていたとしても、訓練なしにそのトピックについて良い答えを出すことは出来ない。ChatGPTにわからないことをどんどん質問して試してみて欲しい。私はChatGPTに様々なフィクション作品のプロットを要約してもらうのが特に効果的だと感じている。
私のテストでは、ChatGPTはJ.R.R.Tolkienの「指輪物語」のプロットを要約した。しかし、Gilbert and Sullivanの『ペンザンスの海賊』やアーシュラ・K・ル=グウィンの『闇の左手』(どちらも少しニッチだが、無名とはほど遠い)の要約は、登場人物や地名でマッド・リブを演じているようなものだ。これらの作品のそれぞれのWikipediaページがどれだけ優れているかは問題ではない。このモデルには、内容だけでなく、フィードバックが必要なのだ。
大規模言語モデルは、実際に情報を理解したり評価したりはしないので、人間に頼ることになる。人間の知識と労働力に寄生しているのだ。新しいソースが学習データセットに追加されると、それらのソースに基づいて文章を構築するかどうか、どのように構築するかについて、新たなトレーニングが必要になる。
ニュース報道が正確かどうかを評価することはできない。議論を評価することも、トレードオフを計量することもできない。百科事典のページを読んでも、それに沿った発言しかできないし、映画の筋書きを正確に要約することもできない。これらのことをすべて人間に頼っているのだ。
そして、人間が言ったことを言い換えたり、リミックスしたり、さらにそれがうまく出来たかを人間が判断する。例えば、塩分は心臓に悪いのか、乳がんの早期検診は有用なのか、といったトピックの常識が変われば、新しいコンセンサスを取り入れるために、彼らは広範囲に渡って再訓練を受ける必要がある。
カーテンの向こうにいる多くの人々
要するに、完全に独立したAIの前触れであるどころか、大規模言語モデルは、多くのAIシステムが、その設計者や保守者だけでなく、ユーザーにも全面的に依存していることを示している。そのため、もしChatGPTが何かについて良い答えや有用な答えを与えてくれたら、それが解析した単語を書いたり、何が良い答えで何が悪い答えかを教えてくれた何千、何百万もの隠れた人々に感謝することを忘れないで欲しい。
ChatGPTは自律的な超知能とは程遠く、他のテクノロジーと同様、私たちなしでは何もできないのだ。
コメントを残す