あなたの好奇心を刺激する、テックと科学の総合ニュースサイト

商用利用も可能で無料オープンソース大規模言語モデル「Dolly 2.0」が公開

Databricksは、チャットボット、テキストサマライザー、基本的な検索エンジンなどのアプリを動かすことができるテキスト生成AIモデル、「Dolly 2.0」をリリースした。これは、3月下旬にリリースされた第一世代のDollyの後継製品となる。驚くべき事に、これは独立系開発者や企業が同様に商業的に使用できるようにライセンスされているのだ。

同社の公式発表によると、Dolly 2.0は、指示に従い、透明でオープンなデータセット上で微調整された世界初のオープンソースの大規模言語モデル(LLM)とのことだ。

Databricks CEOのAli Ghodsi氏によると、商用利用可能なLLMは他にもあるが、「Dolly 2.0のように話しかけてくることはない」という。そして、トレーニングデータはオープンソースライセンスで自由に利用できるようにされているため、ユーザーはトレーニングデータを修正・改良することができるのだ。つまり、あなた独自のバージョンのDollyを作ることができると言う訳だ。

EleutherAI pythiaモデルファミリーに基づくこのLLMは、120億のパラメータを誇り、オープンソースのコーパスdatabricks-dolly-15kのみでファインチューニングが行われている。

Databricks社は、オープンソースへの継続的なコミットメントの一環として、Dolly 2.0が微調整されたデータセット(databricks-dolly-15k)も公開すると述べている。これは、数千人のDatabricks社員によって生成された15,000以上のレコードからなるコーパスで、Databricksはこれを、“ChatGPTの不思議な対話性を大規模言語が発揮できるように特別に設計された、初のオープンソース、人間が生成した命令コーパス”と述べている。

Databricksの社員がこのデータセットを作成し、そのライセンス条項により、学術的または商業的な用途を含むあらゆる目的で使用、修正、拡張することが可能だ。LLMのリリースは、多くの定義でオープンソースとみなされているが、産業用ライセンスに縛られていた。先駆者はMetaのLLaMAで、StanfordのAlpaca、Koala、Vicunaがそれに続いている。

Dollyは、スタンフォードのプロジェクトの52kの質問と回答のデータを、ChatGPTの出力で学習させた。しかし、OpenAIの利用規約の通り、OpenAIと競合するサービスの出力を使うことは出来ない。DatabricksはDolly 2.0でこれを回避する方法を考え出したようだ。

Dolly 2.0は、オープンソースのEleuther AI pythiaモデルファミリーをベースにした120億パラメータの言語モデルで、Databricksの社員が作成した小規模なオープンソースの命令記録コーパス(databricks-dolly-15k)に限定して微調整が行われた。本データセットのライセンス条項により、学術的・商業的な用途を含め、あらゆる目的で使用、修正、拡張することが出来る。

Databricks社のCEOであるAli Ghodsi氏によると、このモデル「Dolly 2.0」は、AIコミュニティに「雪だるま式」の効果をもたらすことになるという。彼は、これが他の人たちの貢献や代替モデルの開発に協力するきっかけになると考えている。商用利用の制限は、乗り越えるべき大きな障害であったと説明する。


Source

Follow Me !

この記事が気に入ったら是非フォローを!

Share!!

スポンサーリンク

執筆者
Photo of author

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

記事一覧を見る

コメントする

CAPTCHA