Web上の“衝撃的な量”の低品質機械翻訳文章がAI学習に影響を与える可能性が示唆される

masapoco
投稿日
2024年1月19日 6:32
worries

AmazonのAIラボとカリフォルニア大学サンタバーバラ校の新しい研究によると、多くの言語の多言語Webコンテンツのかなりの量が機械翻訳(MT)されており、特にリソースの少ない言語においてこの傾向が顕著であることが明らかになった。さらに、原文の質も低いことが多い。確認されたコンテンツの多くは、低品質の英語コンテンツであり、それが多くの言語に翻訳されているようだ。

この研究では、Web上の翻訳の質を調査したが、Web上の文章の半数以上が2種類以上の言語に翻訳されており、更にその質も低く、これが思わぬ所で“深刻な懸念”を引き起こしているという。それは大規模言語モデルのトレーニングに関してだ。

AWSの元応用科学インターンで、現在カリフォルニア大学サンタバーバラ校の博士課程に在籍するMehak Dhaliwal氏は、Motherboardにこう語っている:「私たちがこのトピックに興味を持ったのは、低資源言語を母国語とする機械翻訳の仕事をしている同僚たちが、彼らの母国語のインターネットの多くが機械翻訳で生成されているように見えると指摘したからです。そして、この問題をよりよく理解し、どの程度広まっているのかを確認するために研究を行ったのです。とはいえ、Web上で閲覧するコンテンツが機械によって生成されたものである可能性があることを、誰もが認識しておく必要があります」。

AI学習前に翻訳データのフィルタリングを推奨

この研究のために、研究チームは何十億もの翻訳を収集し、重複する文章をフィルタリングした。その結果、90言語、約64億文のユニークな文章からなる、これまでで最大の多言語コーパスが作成された。そして、3つ以上の言語で互いに直訳された文の集合を表す多方向並列性のパターンを調べた。コーパスの文の57.1%が少なくとも3つの言語で多方向並列であったことから、インターネットのほとんどが翻訳されていることがわかった。

Dhaliwal氏はMotherboardのメールで、「一般的に、ほとんどの言語は、最もリソースの高い言語で並列データを持つ傾向があることが観察されました。単にリソースの少ない言語よりもフランス語のデータがはるかに多いため、文章はリソースの少ない言語よりもフランス語に翻訳される可能性が高くなります」と、述べている。

英語やフランス語のような高リソース言語では、文の平行度が平均4である傾向があった。アフリカのウォロフ語やコーサ語のような低リソース言語では、平均並列度は8.6であった。さらに、低リソース言語では、翻訳がかなり悪い傾向があった。

研究者らは論文で、「多言語並行訳は2言語並行訳よりも質が著しく低いことがわかった」と、述べている。

この結果は、機械翻訳されたコンテンツがWeb上の翻訳、特にリソースの少ない言語への翻訳の大部分を占めていることを示唆しており、AIモデルの学習にそのようなコンテンツを使用することについての懸念を提起している、と研究チームは述べている。

この研究の著者らは、AIモデルの学習データをフィルタリングする際に、多言語主義を考慮に入れるなどして機械翻訳を検出すれば、モデルの品質向上に役立つ可能性があることを示唆している。また、機械翻訳されたコンテンツがAIモデルの訓練や性能に与える影響をさらに調査する必要性も強調している。

現代のAIは、通常数千億トークンから数兆トークンという膨大な量の学習データによって実現されている。この規模での学習は、Webスクレイピングされたデータでのみ可能である。

我々の発見は、多言語モデルビルダーに多くの懸念を提起するものだ:流暢さ(特に文全体)と精度はMTデータの方が低く、幻覚を多く含む流暢でないモデルが生成される可能性がある。 また、選択バイアスは、MTのエラーを考慮する前であっても、データが低品質である可能性を示している。


論文

参考文献

研究の要旨

我々は、Web上のコンテンツが多くの言語に翻訳されていることが多く、これらの多方向翻訳の品質が低いことから、機械翻訳(MT)を使用して作成された可能性が高いことを示している。多方向並列の機械生成コンテンツは、低リソース言語の翻訳を支配しているだけでなく、それらの言語のウェブコンテンツ全体の大部分を占めている。また、多くの言語に翻訳されるコンテンツのタイプに選択バイアスがある証拠も見つかっており、低品質の英語コンテンツがMTによって多くの低リソース言語に大量に翻訳されていることと一致している。我々の研究は、ウェブからスクレイピングされたモノリンガルデータとバイリンガルデータの両方で、多言語大規模言語モデルのようなモデルをトレーニングすることについての深刻な懸念を提起している。



この記事が面白かったら是非シェアをお願いします!


  • Picture
    次の記事

    初の全面ガラス製メタレンズの開発に成功!次世代光学系の開発に繋がる可能性

    2024年1月19日 6:56
  • 前の記事

    MicrosoftのAI PC認定には最低16GBのRAMが必要となり、今後メモリ市場の成長が期待される

    2024年1月19日 6:04
    microsoft surface

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事