Microsoftの小さな言語モデル「Phi-1」は、AIトレーニングにとってのデータ品質の重要性を明らかにする

MicrosoftがプレプリントサーバーarXivにて公開した「Textbooks Are All You Need（必要なのは教科書だけ）」と題する論文の中で紹介されている、新たなトランスフォーマーベースの言語モデル「Phi-1」は、AIトレーニングにおけるデータ品質の重要性を示すものだ。このモデルは、小さながらも高品質なデータに基づいて訓練され、コーディングタスクを実行する能力を研究している。

Phi-1は、GPT-4に基づく分類器を使用してStackとStackOverflowのデータセットから6億の高品質なトレーニングトークンをフィルタリングし、GPT 3.5を使用してさらに10億のトークンを生成した。訓練は、NVIDIA A100グラフィックスカード8枚を使用してわずか4日間で完了したという事で、非常に低コストだ。

Phi-1は、13億のパラメータを持つトランスフォーマーベースのモデルで、インターネットからの「教科書品質」のデータセットと、GPT-3.5から合成的に生成された教科書からの6億のトークン、さらに1億のトークンで訓練された。Phi-1は、HumanEvalで50.6％、MBPPで55.5％を達成した。さらに小さいモデルである3億50万パラメータのphi-1-smallも、大きなモデルと同じパイプラインで訓練され、HumanEvalで45％を達成した。

このHumanEvalとMBPPでの成功は印象的で、Phi-1は、10倍大きく、100倍のデータを使用するモデルを上回っているのだ。ただし、Phi-1には大きなモデルと比較していくつかの制限もある。まず、Pythonプログラミングに特化しているため、その汎用性が制限され、特定のAPIでのプログラミングなど、大規模LLMのドメイン固有の知識を欠いている点。また、Phi-1の構造化された性質は、スタイルの変化やプロンプトの入力エラーに対するロバスト性を低下させる。

これらの結果は、高品質なデータがAIの訓練において重要であることを示唆する物だ。特に後者2点については、測定方法が不足している。Phi-1は近日中にHugging Faceでオープンソースとしてリリースされる予定です。

これらの研究結果は、データの品質を向上させることで、モデルのパフォーマンスが大幅に向上することを示している。これは、モデルのアーキテクチャと訓練により焦点を当てることで、LLM研究のパラダイムシフトを引き起こす可能性がある。しかし、高品質のデータを収集することは困難であり、特にそれはバランスが取れていて、多様で、繰り返しを避ける必要がある。

しかし、他のLLMのデータで訓練することが新しいモデルの出力品質を低下させるという最近の論文もある。2023年5月にarXivで公開された論文「The Curse of Recursion(再帰の呪い)」では、他のLLMのデータで学習することで発生する「データポイズニング」により、新しいモデルの精度が低下することが示されこれは、新しいモデルがGPTベースのモデルから欠陥を継承するという、専有LLMの模倣の偽の約束とも呼ばれます。

一方で、AIが生成した情報をAI学習に用いる手法には懸念も提起されている。2023年5月にarXivで公開された論文「The Curse of Recursion(再帰の呪い)」では、他のLLMのデータで学習することで発生する「データポイズニング」により、新しいモデルの精度が低下することが示されている。「The False Promise of Imitating Proprietary LLMs(プロプライエタリなLLMの模倣という偽りの約束)」という論文の中でも、新しいモデルがGPTベースのモデルから欠陥を継承する事について指摘されている。

Phi-1は近日中にHugging Faceでオープンソースとしてリリースされる予定だ。

論文

arXiv: Textbooks Are All You Need

参考文献

Analytics India Magazine: Microsoft Releases 1.3 Bn Parameter Language Model, Outperforms LLaMa

研究の要旨

phi-1は1.3Bのパラメータを持つTransformerベースのモデルであり、8台のA100で4日間学習され、Webからの「教科書品質」のデータ（6Bのトークン）とGPT-3.5で合成的に生成された教科書と練習問題（1Bのトークン）を用いている。この小規模にもかかわらず、phi-1はHumanEvalで50.6%、MBPPで55.5%のpass@1精度を達成した。また、φ-1-base（コーディング演習のデータセット上での微調整段階前の我々のモデル）、φ-1-small（φ-1と同じパイプラインで訓練された350Mのパラメータを持つより小さなモデルで、それでもHumanEvalで45%を達成している）と比べて、驚くべき出現特性を示している。