日本、独自の大規模言語モデル開発に「富岳」を活用、来年オープンソースでリリースへ

日本政府とNEC、富士通、SoftBankといった大手テクノロジー企業は、“日本語に基づく”大規模言語モデルの開発に「数億ドル」を投資している。

彼らが開発しているこの新たな日本語モデルは、ChatGPTなどよりも文化的・言語的な微妙さを表現できるとされている。トレーニングは、日本が誇るスーパーコンピュータ「富嶽」を使って日本語のテキストで学習される予定だ。

英語と日本語、文字数の圧倒的な差

東北大学で自然言語処理を研究している坂口慶祐氏は、アルファベット体系の違いや欧米のシステムの学習データが限られていることが、日本のユーザーにとって不利だと考えている。

例えば、ChatGPTは「ほとんどの人が見たことのないような極めて珍しい文字」や「珍しい未知の単語」を生成することがあると坂口氏は言う。同様に、ChatGPTは日本語で応答を生成する際に、文化的に適切で丁寧なコミュニケーション規範を適用できないことが多い。

英語のアルファベットには26の文字があるが、日本語には少なくとも2グループの48の文字があり、さらによく使われる漢字（2,136字）がある。さらに、それぞれの文字には異なる発音があり、めったに使われない漢字も約5万字ある。

日本独自のLLMベンチマーク

LLMの日本文化に対する感受性を測定するため、研究者らはGPT-4で作成された質問を使って、LLMが日本特有の質問にどれだけ答えられるかを測定する「Rakuda Ranking」を開発した。現在、最も優秀な日本のオープンLLMは、このランキングで4位にランクされている。このランキングのトップはGPT-3.5であり、GPT-4はそれらをも大きく上回っている。

東京工業大学、東北大学、富士通、政府出資の理化学研究所によって開発されている日本語LLMは、来年オープンソースとして公開され、少なくとも300億のパラメータを持つ予定だ。

日本の文部科学省は、さらに大規模なモデルを構築している。少なくとも1,000億のパラメータを持つこのモデルもまた、日本語をベースとし、科学的応用のために最適化される予定だ：発表された研究に基づき、研究を加速させるための新たな仮説を生成する。このモデルの開発費は約2億ドルで、2031年に一般公開される予定である。

Sources

Nature: Why Japan is building its own version of ChatGPT