AIがWikipediaの信頼性を高めることが出来るかも知れない

私たちは皆、Wikipediaを一般的な情報源として利用している。しかし、Wikipediaが常に正しいとは限らず、時に誤った情報を掲載していると認識している人はどれだけいるだろうか？恐らく一部の人はこのオンライン大百科の正しさを信じて疑っていないだろう。だが、Wikipediaに掲載されている内容もそもそもだが、その事実の裏付けとなる文献自体も、もっと正確である必要があったり、そもそも真っ赤なインチキであることもある。この問題に対処するため、研究者たちはWikipediaの参考文献の質をチェックし、改善するAIシステムを開発した。

SIDE

SIDEと呼ばれるこのシステムは、ロンドンに拠点を置くSamaya AI社のFabio Petroni氏と彼の同僚によって開発された。このシステムは、10月19日に『Nature Machine Intelligence』誌に発表された。

「参考文献の改善プロセスは、情報検索システムと言語モデルを搭載した人工知能の助けを借りて取り組むことができます。機械は、人間がより良い引用文献を見つけるのを助けることができます。この作業は、言語の理解とオンライン検索の熟練を必要とします」と、Petroni氏は述べている。

SIDEはWikipediaの記事中の主張と、それを裏付ける参考文献を分析し、その文献が適切で信頼できるかどうかを判断し、もしそうでなければ、インターネットからより良い代替案を提案する。

研究者たちは、Wikipediaの編集者やモデレーターから注目されている、質の高い記事を用いてSIDEを訓練した。

そして、SIDEが見たことのない他の特集記事でテストした。その結果、ほぼ半数のケースで、SIDEが最も推奨する参考文献がすでにレポート内で使用されていることがわかった。残りのケースでは、SIDEは異なる選択肢を提示した。

研究者らはまた、Wikipediaのユーザーグループにも、既存の参考文献とSIDEが提案した参考文献を比較するよう依頼した。その結果、ユーザーの21％がAIが生成した参考文献を好み、10％がオリジナルの参考文献を好み、39％が好みを持たなかった。

「我々は、既存の技術が、Wikipediaのユーザーが主張を検証するのを効果的かつ実用的にサポートできる段階に達したことを実証しました」とPetroni氏は述べた。

この研究は、AIが悪い文献をフィルタリングし、より良い文献を見つけることで、Wikipediaの項目の信頼性を高めるのに役立つことを示唆している。しかし、このシステムはもっと良くなる可能性があり、まだ人間の監視が必要である、とスイスのチューリッヒ大学の計算コミュニケーション科学者Aleksandra Urman氏は言う。

彼女は、このシステムは適合しない可能性のある引用にフラグを立てるのに役立つだろうが、本当の問題は、Wikipediaのコミュニティが何を最も有用と感じるかだ、と述べている。

Urman氏はまた、SIDEの結果を評価した多くのWikipediaユーザーは、どちらの文献を好むということはなかったと述べている。彼女は、このような場合でも、彼らは関連する引用をオンラインで検索すると説明している。

マサチューセッツ州ウォルサムにあるベントレー大学でAIを専門とするNoah Giansiracusa氏は、ChatGPTのようなチャットボットが出典をでっち上げたり、間違った引用をしたりするという評判を考えると、AIを使って引用を支援することは皮肉に見えるかもしれないと指摘する。同氏は、AIの言語モデルはチャットボットよりも広い範囲に及ぶことを忘れてはならないと強調する。

Petroni氏は、今後の研究では、画像、ビデオ、論文など、インターネット上のテキスト以外のWikipediaの参照に焦点を当てると述べた。

「私たちは、この研究がより広い文脈で利用されることを望んでいます。もっと一般的に言えば、この研究はオンラインのより信頼できる情報につながると信じています」とPetroni氏は述べている。

論文

Nature Machine Intelligence: Improving Wikipedia verifiability with AI

参考文献

Nature: AI tidies up Wikipedia’s references — and boosts reliability
via Endgadget: Study shows AI program could verify Wikipedia citations, improving reliability

研究の要旨

検証可能性はWikipediaの中核的なコンテンツポリシーであり、主張には引用による裏付けが必要です。Wikipediaの参考文献の質を維持・向上させることは重要な課題であり、この取り組みにおいて人間を支援するためのより良いツールの開発が急務である。我々は、情報検索システムと言語モデルによる人工知能（AI）の助けを借りて、参考文献の改善プロセスに取り組むことができることを示す。SIDEと呼ぶこのニューラルネットワークベースのシステムは、Wikipediaの引用のうち、その主張を支持しそうにないものを特定し、その後ウェブからより良いものを推薦することができる。我々はこのモデルを既存のWikipediaの引用で訓練し、何千人ものWikipedia編集者の貢献と知恵の結集から学習する。クラウドソーシングを利用することで、我々のシステムによって検証不可能とタグ付けされる可能性が高い上位10%の引用について、人間は70%の確率で、元々引用されていた文献と比較して、我々のシステムが提案する代替案を好むことが観察された。本システムの適用可能性を検証するために、英語圏のWikipediaコミュニティと連携するデモを作成し、SIDEによると、検証不可能とされる可能性が最も高い同じ上位10％の主張に対して、SIDEの最初の引用の推奨は、既存のWikipediaの引用の2倍の頻度で好まれることがわかりました。この結果は、Wikipediaの検証可能性を向上させるために、AIベースのシステムを人間と併用できることを示しています。