Databricksは、チャットボット、テキストサマライザー、基本的な検索エンジンなどのアプリを動かすことができるテキスト生成AIモデル、「Dolly 2.0」をリリースした。これは、3月下旬にリリースされた第一世代のDollyの後継製品となる。驚くべき事に、これは独立系開発者や企業が同様に商業的に使用できるようにライセンスされているのだ。
同社の公式発表によると、Dolly 2.0は、指示に従い、透明でオープンなデータセット上で微調整された世界初のオープンソースの大規模言語モデル(LLM)とのことだ。
Databricks CEOのAli Ghodsi氏によると、商用利用可能なLLMは他にもあるが、「Dolly 2.0のように話しかけてくることはない」という。そして、トレーニングデータはオープンソースライセンスで自由に利用できるようにされているため、ユーザーはトレーニングデータを修正・改良することができるのだ。つまり、あなた独自のバージョンのDollyを作ることができると言う訳だ。
EleutherAI pythiaモデルファミリーに基づくこのLLMは、120億のパラメータを誇り、オープンソースのコーパスdatabricks-dolly-15kのみでファインチューニングが行われている。
Databricks社は、オープンソースへの継続的なコミットメントの一環として、Dolly 2.0が微調整されたデータセット(databricks-dolly-15k)も公開すると述べている。これは、数千人のDatabricks社員によって生成された15,000以上のレコードからなるコーパスで、Databricksはこれを、“ChatGPTの不思議な対話性を大規模言語が発揮できるように特別に設計された、初のオープンソース、人間が生成した命令コーパス”と述べている。
Databricksの社員がこのデータセットを作成し、そのライセンス条項により、学術的または商業的な用途を含むあらゆる目的で使用、修正、拡張することが可能だ。LLMのリリースは、多くの定義でオープンソースとみなされているが、産業用ライセンスに縛られていた。先駆者はMetaのLLaMAで、StanfordのAlpaca、Koala、Vicunaがそれに続いている。
Dollyは、スタンフォードのプロジェクトの52kの質問と回答のデータを、ChatGPTの出力で学習させた。しかし、OpenAIの利用規約の通り、OpenAIと競合するサービスの出力を使うことは出来ない。DatabricksはDolly 2.0でこれを回避する方法を考え出したようだ。
Dolly 2.0は、オープンソースのEleuther AI pythiaモデルファミリーをベースにした120億パラメータの言語モデルで、Databricksの社員が作成した小規模なオープンソースの命令記録コーパス(databricks-dolly-15k)に限定して微調整が行われた。本データセットのライセンス条項により、学術的・商業的な用途を含め、あらゆる目的で使用、修正、拡張することが出来る。
Databricks社のCEOであるAli Ghodsi氏によると、このモデル「Dolly 2.0」は、AIコミュニティに「雪だるま式」の効果をもたらすことになるという。彼は、これが他の人たちの貢献や代替モデルの開発に協力するきっかけになると考えている。商用利用の制限は、乗り越えるべき大きな障害であったと説明する。
Source
コメントを残す