OpenAIはChatGPTが生成したテキストが“AI製”であることを区別できる電子透かしツールを開発している

テキサス大学オースティン校の講義で、現在OpenAIの客員研究員であるコンピュータサイエンス教授のScott Aaronson氏は、OpenAIでは、AIが生成したテキストについて、「“これはAIが生成したものである”と言うことを客観的に判断できるための電子透かしツール」を開発していることを明らかにした。このツールでは、システム（例えばChatGPT）がテキストを生成するたびに、そのテキストがどこから来たかを示す「気づかれない秘密の信号」を埋め込むことになるという。

Source

Shtetl-Optimized: My AI Safety Lecture for UT Effective Altruism
New Scientist: OpenAI is developing a watermark to identify work from its GPT text AI

Aarsonson氏によれば、OpenAIのエンジニアであるHendrik Kirchner氏は、既に実用的なプロトタイプを作成しているといい、将来的にはOpenAIが開発するシステムに組み込むことが期待されているとのことだ。

Aaronson氏は、「私たちは、（AIシステムの）出力を、あたかも人間のものであるかのように見せかけることを、より困難にしたいのです。これは、学術的な剽窃を防ぐのに役立つのはもちろんですが、例えば、モスクワにトロールがたくさんいる建物もないのに、ロシアのウクライナ侵攻を支持する一見オントピックなコメントであらゆるブログにスパムを送るような、プロパガンダの大量生成を防ぐのにも役立ちます。あるいは、誰かを陥れるために、その人の文体を真似ることを防ぐことにも繋がります。」と、この技術の有効性について説明する。

AIによるテキスト生成は、GPT-3の登場によって脚光を浴びたが、恐らく最近のChatGPTの登場により、更に注目を浴びたのではないだろうか。まるで対話するかのように質問に答えてくれたり、詩を書いたり、それこそ深遠な哲学的な問いにも（それが合っているかは別として）答えてくれるChatGPTの優秀さに、人々は熱狂している。

ChatGPTは非常に面白く、また一部では有用であるが、このシステムには明らかに倫理的な懸念がある。以前の多くのテキスト生成システムと同様に、ChatGPTは高品質のフィッシングメールや有害なマルウェアを書いたり、学校の課題でカンニングをしたりするために使われる可能性がある。また、質問回答ツールとしては、事実に一貫性がない。この欠点から、プログラミングQ&AサイトのStack Overflowは、追って通知があるまでChatGPTから発信された回答を禁止することにしている。

更に、OpenAIは来年、大規模な言語モデルを限界まで高め、チューリングテストに合格するレベルに到達するとされるGPT-4をリリースする予定だ。数年以内に、私たちがインターネットで読むコンテンツの半分がAIによって書かれるようになるかもしれないのだから、電子透かしツールは絶対に欠かせないだろう。

どうやって見分けるのか？

OpenAIの電子透かしツールの技術的な背景を把握するには、ChatGPTのようなシステムがなぜうまく機能するのかを知ることが有効だ。これらのシステムは、入出力テキストを「トークン」の文字列として理解する。トークンには、単語だけでなく、句読点や単語の一部も含まれる。その核となるのは、確率分布と呼ばれる数学的関数を常に生成し、以前に出力されたすべてのトークンを考慮して、次に出力するトークン（単語など）を決定していることだ。

ChatGPTのようなOpenAIがホストするシステムの場合、分布が生成された後、OpenAIのサーバーがその分布に従ってトークンをサンプリングする仕事をする。この選択にはランダム性があり、同じテキストプロンプトでも異なるレスポンスを返すことができるのはそのためだ。

OpenAIの電子透かしツールは、既存のテキスト生成システムの「ラッパー」のようなもので、サーバーレベルで動作する暗号関数を利用して、次のトークンを「疑似ランダム」に選択するとAaronson氏は述べている。理論的には、このシステムで生成されたテキストは、我々にはまだランダムに見えるが、暗号関数の「鍵」を持っている人は誰でも透かしを発見することができるのだ。

「経験的に、数百個のトークンがあれば、このテキストは（AIシステムから）来たものだという妥当なシグナルを得ることができるようです。原理的には、長いテキストをとって、どの部分がおそらく[システム]から来たもので、どの部分がおそらくそうでないかを切り分けることさえできます。このツールは、秘密の鍵を使って透かしを入れることができ、同じ鍵を使って透かしをチェックすることができます。」とAaronson氏は説明する。

とはいえ、AIが生成したテキストに透かしを組み込むというアイデア自体は新しいものではない。ただし、これまでの試みは、ほとんどがルールベースで、同義語の置換や構文固有の単語の変更といった技術に頼っていた。OpenAIの暗号ベースのアプローチは、この手のものとしては初の試みとなる。

誰もがアクセスできることが重要になる

ただし、現段階でこの技術ではコンテンツがAIに由来するのか、それとも人間に由来するのかを判断するのに役立つ暗号鍵にアクセスできるのはOpenAIのみとなるだ。

しかし、一般の人々もこれらの鍵にアクセスし、自分たちが関わっているコンテンツの作成者が誰であるかを自分で判断できるようにすることが、同じように、いやそれ以上に重要なことだろう。

例として、教師や教授が、生徒が提出した作文がAIではなく、実際に生徒が書いたものであるかどうかを判断するのに役立つ。また、電子メールにフィッシング詐欺がないか、ソーシャルメディアにプロパガンダがないかのチェックにも役立つ。

しかし、OpenAIだけがアクセスできるキーを無料で提供することは、OpenAIがそこから利益を得るチャンスを逃すことを意味する。さらに、誰でもアクセスできるようにすると、その鍵を使って電子透かしを回避したり、取り除いたりすることも可能になる可能性もある。

OpenAIがこの問題に対処するために模索している様々な選択肢の中に、電子透かしがあることは注目に値するが、OpenAIや他の誰かが、関係者全員にとってうまくいくような答えを見つけることができるかどうか、見守る必要がありそうだ。