OpenAIはChatGPTが生成したテキストが“AI製”であることを区別できる電子透かしツールを開発している

masapoco
投稿日 2022年12月15日 5:22
stamp image

テキサス大学オースティン校の講義で、現在OpenAIの客員研究員であるコンピュータサイエンス教授のScott Aaronson氏は、OpenAIでは、AIが生成したテキストについて、「“これはAIが生成したものである”と言うことを客観的に判断できるための電子透かしツール」を開発していることを明らかにした。このツールでは、システム(例えばChatGPT)がテキストを生成するたびに、そのテキストがどこから来たかを示す「気づかれない秘密の信号」を埋め込むことになるという。

Aarsonson氏によれば、OpenAIのエンジニアであるHendrik Kirchner氏は、既に実用的なプロトタイプを作成しているといい、将来的にはOpenAIが開発するシステムに組み込むことが期待されているとのことだ。

Aaronson氏は、「私たちは、(AIシステムの)出力を、あたかも人間のものであるかのように見せかけることを、より困難にしたいのです。これは、学術的な剽窃を防ぐのに役立つのはもちろんですが、例えば、モスクワにトロールがたくさんいる建物もないのに、ロシアのウクライナ侵攻を支持する一見オントピックなコメントであらゆるブログにスパムを送るような、プロパガンダの大量生成を防ぐのにも役立ちます。あるいは、誰かを陥れるために、その人の文体を真似ることを防ぐことにも繋がります。」と、この技術の有効性について説明する。

AIによるテキスト生成は、GPT-3の登場によって脚光を浴びたが、恐らく最近のChatGPTの登場により、更に注目を浴びたのではないだろうか。まるで対話するかのように質問に答えてくれたり、詩を書いたり、それこそ深遠な哲学的な問いにも(それが合っているかは別として)答えてくれるChatGPTの優秀さに、人々は熱狂している。

ChatGPTは非常に面白く、また一部では有用であるが、このシステムには明らかに倫理的な懸念がある。以前の多くのテキスト生成システムと同様に、ChatGPTは高品質のフィッシングメールや有害なマルウェアを書いたり、学校の課題でカンニングをしたりするために使われる可能性がある。また、質問回答ツールとしては、事実に一貫性がない。この欠点から、プログラミングQ&AサイトのStack Overflowは、追って通知があるまでChatGPTから発信された回答を禁止することにしている。

更に、OpenAIは来年、大規模な言語モデルを限界まで高め、チューリングテストに合格するレベルに到達するとされるGPT-4をリリースする予定だ。数年以内に、私たちがインターネットで読むコンテンツの半分がAIによって書かれるようになるかもしれないのだから、電子透かしツールは絶対に欠かせないだろう。

どうやって見分けるのか?

OpenAIの電子透かしツールの技術的な背景を把握するには、ChatGPTのようなシステムがなぜうまく機能するのかを知ることが有効だ。これらのシステムは、入出力テキストを「トークン」の文字列として理解する。トークンには、単語だけでなく、句読点や単語の一部も含まれる。その核となるのは、確率分布と呼ばれる数学的関数を常に生成し、以前に出力されたすべてのトークンを考慮して、次に出力するトークン(単語など)を決定していることだ。

ChatGPTのようなOpenAIがホストするシステムの場合、分布が生成された後、OpenAIのサーバーがその分布に従ってトークンをサンプリングする仕事をする。この選択にはランダム性があり、同じテキストプロンプトでも異なるレスポンスを返すことができるのはそのためだ。

OpenAIの電子透かしツールは、既存のテキスト生成システムの「ラッパー」のようなもので、サーバーレベルで動作する暗号関数を利用して、次のトークンを「疑似ランダム」に選択するとAaronson氏は述べている。理論的には、このシステムで生成されたテキストは、我々にはまだランダムに見えるが、暗号関数の「鍵」を持っている人は誰でも透かしを発見することができるのだ。

「経験的に、数百個のトークンがあれば、このテキストは(AIシステムから)来たものだという妥当なシグナルを得ることができるようです。原理的には、長いテキストをとって、どの部分がおそらく[システム]から来たもので、どの部分がおそらくそうでないかを切り分けることさえできます。このツールは、秘密の鍵を使って透かしを入れることができ、同じ鍵を使って透かしをチェックすることができます。」とAaronson氏は説明する。

とはいえ、AIが生成したテキストに透かしを組み込むというアイデア自体は新しいものではない。ただし、これまでの試みは、ほとんどがルールベースで、同義語の置換や構文固有の単語の変更といった技術に頼っていた。OpenAIの暗号ベースのアプローチは、この手のものとしては初の試みとなる。

誰もがアクセスできることが重要になる

ただし、現段階でこの技術ではコンテンツがAIに由来するのか、それとも人間に由来するのかを判断するのに役立つ暗号鍵にアクセスできるのはOpenAIのみとなるだ。

しかし、一般の人々もこれらの鍵にアクセスし、自分たちが関わっているコンテンツの作成者が誰であるかを自分で判断できるようにすることが、同じように、いやそれ以上に重要なことだろう。

例として、教師や教授が、生徒が提出した作文がAIではなく、実際に生徒が書いたものであるかどうかを判断するのに役立つ。また、電子メールにフィッシング詐欺がないか、ソーシャルメディアにプロパガンダがないかのチェックにも役立つ。

しかし、OpenAIだけがアクセスできるキーを無料で提供することは、OpenAIがそこから利益を得るチャンスを逃すことを意味する。さらに、誰でもアクセスできるようにすると、その鍵を使って電子透かしを回避したり、取り除いたりすることも可能になる可能性もある。

OpenAIがこの問題に対処するために模索している様々な選択肢の中に、電子透かしがあることは注目に値するが、OpenAIや他の誰かが、関係者全員にとってうまくいくような答えを見つけることができるかどうか、見守る必要がありそうだ。



この記事が面白かったら是非シェアをお願いします!


  • PlayStation 5 image
    次の記事

    光学ドライブが取り外しできる新型PS5がまもなく発表か? 既に開発者の元に届き始めている模様

    2022年12月15日 5:39
  • 前の記事

    米国で歴史的な「核融合のブレークスルー」が達成されたが、実際どういうことなのだろうか?

    2022年12月14日 18:20
    llnl nuclear fusion

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事