Microsoftの小さな言語モデル「Phi-1」は、AIトレーニングにとってのデータ品質の重要性を明らかにする

masapoco
投稿日 2023年6月25日 18:09
How Microsofts bet on Azure unlocked an AI revolution hero

MicrosoftがプレプリントサーバーarXivにて公開した「Textbooks Are All You Need(必要なのは教科書だけ)」と題する論文の中で紹介されている、新たなトランスフォーマーベースの言語モデル「Phi-1」は、AIトレーニングにおけるデータ品質の重要性を示すものだ。このモデルは、小さながらも高品質なデータに基づいて訓練され、コーディングタスクを実行する能力を研究している。

Phi-1は、GPT-4に基づく分類器を使用してStackとStackOverflowのデータセットから6億の高品質なトレーニングトークンをフィルタリングし、GPT 3.5を使用してさらに10億のトークンを生成した。訓練は、NVIDIA A100グラフィックスカード8枚を使用してわずか4日間で完了したという事で、非常に低コストだ。

Phi-1は、13億のパラメータを持つトランスフォーマーベースのモデルで、インターネットからの「教科書品質」のデータセットと、GPT-3.5から合成的に生成された教科書からの6億のトークン、さらに1億のトークンで訓練された。Phi-1は、HumanEvalで50.6%、MBPPで55.5%を達成した。さらに小さいモデルである3億50万パラメータのphi-1-smallも、大きなモデルと同じパイプラインで訓練され、HumanEvalで45%を達成した。

このHumanEvalとMBPPでの成功は印象的で、Phi-1は、10倍大きく、100倍のデータを使用するモデルを上回っているのだ。ただし、Phi-1には大きなモデルと比較していくつかの制限もある。まず、Pythonプログラミングに特化しているため、その汎用性が制限され、特定のAPIでのプログラミングなど、大規模LLMのドメイン固有の知識を欠いている点。また、Phi-1の構造化された性質は、スタイルの変化やプロンプトの入力エラーに対するロバスト性を低下させる。

これらの結果は、高品質なデータがAIの訓練において重要であることを示唆する物だ。特に後者2点については、測定方法が不足している。Phi-1は近日中にHugging Faceでオープンソースとしてリリースされる予定です。

これらの研究結果は、データの品質を向上させることで、モデルのパフォーマンスが大幅に向上することを示している。これは、モデルのアーキテクチャと訓練により焦点を当てることで、LLM研究のパラダイムシフトを引き起こす可能性がある。しかし、高品質のデータを収集することは困難であり、特にそれはバランスが取れていて、多様で、繰り返しを避ける必要がある。

しかし、他のLLMのデータで訓練することが新しいモデルの出力品質を低下させるという最近の論文もある。2023年5月にarXivで公開された論文「The Curse of Recursion(再帰の呪い)」では、他のLLMのデータで学習することで発生する「データポイズニング」により、新しいモデルの精度が低下することが示されこれは、新しいモデルがGPTベースのモデルから欠陥を継承するという、専有LLMの模倣の偽の約束とも呼ばれます。

一方で、AIが生成した情報をAI学習に用いる手法には懸念も提起されている。2023年5月にarXivで公開された論文「The Curse of Recursion(再帰の呪い)」では、他のLLMのデータで学習することで発生する「データポイズニング」により、新しいモデルの精度が低下することが示されている。「The False Promise of Imitating Proprietary LLMs(プロプライエタリなLLMの模倣という偽りの約束)」という論文の中でも、新しいモデルがGPTベースのモデルから欠陥を継承する事について指摘されている。

Phi-1は近日中にHugging Faceでオープンソースとしてリリースされる予定だ。


論文

参考文献

研究の要旨

phi-1は1.3Bのパラメータを持つTransformerベースのモデルであり、8台のA100で4日間学習され、Webからの「教科書品質」のデータ(6Bのトークン)とGPT-3.5で合成的に生成された教科書と練習問題(1Bのトークン)を用いている。この小規模にもかかわらず、phi-1はHumanEvalで50.6%、MBPPで55.5%のpass@1精度を達成した。また、φ-1-base(コーディング演習のデータセット上での微調整段階前の我々のモデル)、φ-1-small(φ-1と同じパイプラインで訓練された350Mのパラメータを持つより小さなモデルで、それでもHumanEvalで45%を達成している)と比べて、驚くべき出現特性を示している。



この記事が面白かったら是非シェアをお願いします!


  • TRI Generative AI Optimizing Aerodynamics
    次の記事

    トヨタ自動車のAI研究所が生成AIを使った車両設計ツールを発表

    2023年6月26日 6:02
  • 前の記事

    悲しい音楽がメンタルヘルスを向上させる可能性が判明

    2023年6月25日 16:21
    sad music

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • Babylon 7

    Microsoft、Webゲーム用のグローバルイルミネーションサポートを追加したBabylon.js 7.0を公開

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

今読まれている記事