科学誌は論文の共著者としてChatGPTを認めない方針

学術雑誌の大手出版社であるScienceとSpringer Natureは、編集方針において、生成型AIツールの使用による論文執筆に対処する新たなルールを導入した。

今回の方針更新は、OpenAIの最新製品であるChatGPTを使った実験を行う学者が増えていることに対応したものだ。この大規模言語モデル（LLM）は、一貫性のある段落のテキストを生成することができ、科学を含むあらゆる種類の事柄について指示された内容に応じた文章を出力する。研究者たちはこれを利用して自分の研究論文を書いており、中にはChatGPTを著者としてクレジットしている人もいるのだ。

しかし、学術誌『Science』は、これらのツールを使って作成した原稿を提出することは科学的不正行為に相当するとして、研究者に警告を発している。

「AI、機械学習、または同様のアルゴリズムツールから生成されたテキストは、編集者の明確な許可なしに、Science誌に掲載される論文に使用することはできず、添付の図、画像、またはグラフィックは、これらのツールの製品であることはできません。さらに、AIプログラムはScience誌の論文の著者にはなれません。このポリシーに違反することは、科学的な不正行為となります。」と、その編集方針で述べられている。

『Nature』誌も同様の規則を導入し、ChatGPTやその他のAIソフトウェアを著者として記載した論文は受理しないとしているが、この種のツールを完全に禁止しているわけではない。

「LLMツールを使用する研究者は、この使用を方法または謝辞のセクションで文書化する必要があります。論文にこれらのセクションがない場合は、序文または他の適切なセクションを使用して、LLMの使用を記録することができます」とNatureは述べている。

CellやLancetなど約2,800誌を発行するElsevierは、Springer-Natureと同様のスタンスをとっている。ElsevierのAndrew Davis氏は、「研究論文の読みやすさと言語を改善するため、AIツールの使用を認めているが、データの解釈や科学的結論の導出など、著者が行うべき重要な作業を代替することはできない」とし、AIツールを使用した場合と方法を著者が申告する必要があると述べている。

Science誌の編集長であるHolden Thorp氏は、すべての論文の投稿は著者のオリジナル作品でなければならず、AIによって作られたコンテンツは盗作の一形態であると述べている。著者は、完全に開示し、Scienceが承認した場合のみ、このツールを使用することができる。ChatGPTのような大規模な言語モデルは、インターネットから収集した膨大な量のテキストで学習するため、学習データにある文章と非常に類似した文章を再生することができる。

「何年もの間、Science誌の著者は、『作品はオリジナルである』ことを証明するライセンスに署名してきました。Science誌にとって、“オリジナル”という言葉は、ChatGPTによって書かれた文章が受け入れられないことを示すのに十分なものなのです。結局のところ、ChatGPTからの盗作なのです。さらに、私たちの著者は、彼ら自身が論文の研究に対して責任があることを証明するのです」とThorp氏は述べている。

ChatGPTのようなツールは、文法的な間違いのないテキストを作成するが、AI自身はその内容を理解しているわけではなく、事実を取り違える傾向がある。虚偽の数字を含む見当違いな研究結果を引用することもあるが、人間を騙すには十分な説得力があるものも少なくない。学術的な文章は専門用語が多く、専門家でもChatGPTで書かれた偽の文章を本物だと信じてしまうことがあるのだ。このことは、既にMetaがリリースしたがすぐに公開停止に追い込まれた「科学的知識」AIモデルでも指摘されてされていたことだ。

科学者は、論文で結果をごまかしたいという誘惑に駆られ、あらゆる方法を駆使して偽の研究成果を発表しようとする。生成型AIの最新の開発により、ニセのコンテンツを生成する新しい簡単な方法が提供されているのだ。Thorp氏は、「AIが生成した多くの文章がすぐに文献に載る可能性がある」と警告し、編集者や査読者に、論文がAIの助けを借りて書かれたことを示唆する兆候を見抜くことに警戒するよう促している。

これらの出版社は、AIで書かれたテキストを検出する確実な方法を今のところ持っていないようなので、研究者に編集方針を守らせるのは難しいかも知れない。

「編集者や出版社は、LLMによって生成されたテキストを検出することができますか？今のところ、答えは『おそらく』です。ChatGPTの生の出力は、特に数段落以上が含まれ、主題が科学的研究に関連する場合、注意深く検査すれば検出可能です。これは、LLMが学習データとプロンプトの統計的な関連性に基づいて単語のパターンを生成するためで、出力が平凡で一般的であったり、単純なエラーが含まれていたりすることがあります。さらに、LLMはまだ出典を引用して自分のアウトプットを文書化することができません」とNature誌は述べている。

Natureの親会社であるSpringer Natureは現在、AIが生成したテキストを検出する独自のソフトウェアを開発中だ。一方、Science社は、他社が作った検出ソフトの利用を検討すると述べている。

Thorp氏は、研究者に対し、自分自身で考え、この技術に頼ることを控えるよう促した。

「科学に対する信頼が失われつつある今、科学者は慎重かつ細心の注意を払うことを心がけることが重要です。科学的な記録は、最終的には重要な疑問と格闘する人間の努力の一つです。機械は重要な役割を果たしますが、それは仮説を立て、実験を計画し、結果を理解する人間のための道具としてです。最終的には、私たちの頭の中にある素晴らしいコンピュータが、その成果物を生み出し、表現しなければならないのです」と締めくくった。

Source