AmazonのAIラボとカリフォルニア大学サンタバーバラ校の新しい研究によると、多くの言語の多言語Webコンテンツのかなりの量が機械翻訳(MT)されており、特にリソースの少ない言語においてこの傾向が顕著であることが明らかになった。さらに、原文の質も低いことが多い。確認されたコンテンツの多くは、低品質の英語コンテンツであり、それが多くの言語に翻訳されているようだ。
この研究では、Web上の翻訳の質を調査したが、Web上の文章の半数以上が2種類以上の言語に翻訳されており、更にその質も低く、これが思わぬ所で“深刻な懸念”を引き起こしているという。それは大規模言語モデルのトレーニングに関してだ。
AWSの元応用科学インターンで、現在カリフォルニア大学サンタバーバラ校の博士課程に在籍するMehak Dhaliwal氏は、Motherboardにこう語っている:「私たちがこのトピックに興味を持ったのは、低資源言語を母国語とする機械翻訳の仕事をしている同僚たちが、彼らの母国語のインターネットの多くが機械翻訳で生成されているように見えると指摘したからです。そして、この問題をよりよく理解し、どの程度広まっているのかを確認するために研究を行ったのです。とはいえ、Web上で閲覧するコンテンツが機械によって生成されたものである可能性があることを、誰もが認識しておく必要があります」。
AI学習前に翻訳データのフィルタリングを推奨
この研究のために、研究チームは何十億もの翻訳を収集し、重複する文章をフィルタリングした。その結果、90言語、約64億文のユニークな文章からなる、これまでで最大の多言語コーパスが作成された。そして、3つ以上の言語で互いに直訳された文の集合を表す多方向並列性のパターンを調べた。コーパスの文の57.1%が少なくとも3つの言語で多方向並列であったことから、インターネットのほとんどが翻訳されていることがわかった。
Dhaliwal氏はMotherboardのメールで、「一般的に、ほとんどの言語は、最もリソースの高い言語で並列データを持つ傾向があることが観察されました。単にリソースの少ない言語よりもフランス語のデータがはるかに多いため、文章はリソースの少ない言語よりもフランス語に翻訳される可能性が高くなります」と、述べている。
英語やフランス語のような高リソース言語では、文の平行度が平均4である傾向があった。アフリカのウォロフ語やコーサ語のような低リソース言語では、平均並列度は8.6であった。さらに、低リソース言語では、翻訳がかなり悪い傾向があった。
研究者らは論文で、「多言語並行訳は2言語並行訳よりも質が著しく低いことがわかった」と、述べている。
この結果は、機械翻訳されたコンテンツがWeb上の翻訳、特にリソースの少ない言語への翻訳の大部分を占めていることを示唆しており、AIモデルの学習にそのようなコンテンツを使用することについての懸念を提起している、と研究チームは述べている。
この研究の著者らは、AIモデルの学習データをフィルタリングする際に、多言語主義を考慮に入れるなどして機械翻訳を検出すれば、モデルの品質向上に役立つ可能性があることを示唆している。また、機械翻訳されたコンテンツがAIモデルの訓練や性能に与える影響をさらに調査する必要性も強調している。
現代のAIは、通常数千億トークンから数兆トークンという膨大な量の学習データによって実現されている。この規模での学習は、Webスクレイピングされたデータでのみ可能である。
我々の発見は、多言語モデルビルダーに多くの懸念を提起するものだ:流暢さ(特に文全体)と精度はMTデータの方が低く、幻覚を多く含む流暢でないモデルが生成される可能性がある。 また、選択バイアスは、MTのエラーを考慮する前であっても、データが低品質である可能性を示している。
論文
参考文献
研究の要旨
我々は、Web上のコンテンツが多くの言語に翻訳されていることが多く、これらの多方向翻訳の品質が低いことから、機械翻訳(MT)を使用して作成された可能性が高いことを示している。多方向並列の機械生成コンテンツは、低リソース言語の翻訳を支配しているだけでなく、それらの言語のウェブコンテンツ全体の大部分を占めている。また、多くの言語に翻訳されるコンテンツのタイプに選択バイアスがある証拠も見つかっており、低品質の英語コンテンツがMTによって多くの低リソース言語に大量に翻訳されていることと一致している。我々の研究は、ウェブからスクレイピングされたモノリンガルデータとバイリンガルデータの両方で、多言語大規模言語モデルのようなモデルをトレーニングすることについての深刻な懸念を提起している。
コメントを残す