商用利用も可能で無料オープンソース大規模言語モデル「Dolly 2.0」が公開

Databricksは、チャットボット、テキストサマライザー、基本的な検索エンジンなどのアプリを動かすことができるテキスト生成AIモデル、「Dolly 2.0」をリリースした。これは、3月下旬にリリースされた第一世代のDollyの後継製品となる。驚くべき事に、これは独立系開発者や企業が同様に商業的に使用できるようにライセンスされているのだ。

同社の公式発表によると、Dolly 2.0は、指示に従い、透明でオープンなデータセット上で微調整された世界初のオープンソースの大規模言語モデル（LLM）とのことだ。

Databricks CEOのAli Ghodsi氏によると、商用利用可能なLLMは他にもあるが、「Dolly 2.0のように話しかけてくることはない」という。そして、トレーニングデータはオープンソースライセンスで自由に利用できるようにされているため、ユーザーはトレーニングデータを修正・改良することができるのだ。つまり、あなた独自のバージョンのDollyを作ることができると言う訳だ。

EleutherAI pythiaモデルファミリーに基づくこのLLMは、120億のパラメータを誇り、オープンソースのコーパスdatabricks-dolly-15kのみでファインチューニングが行われている。

Databricks社は、オープンソースへの継続的なコミットメントの一環として、Dolly 2.0が微調整されたデータセット（databricks-dolly-15k）も公開すると述べている。これは、数千人のDatabricks社員によって生成された15,000以上のレコードからなるコーパスで、Databricksはこれを、“ChatGPTの不思議な対話性を大規模言語が発揮できるように特別に設計された、初のオープンソース、人間が生成した命令コーパス”と述べている。

Databricksの社員がこのデータセットを作成し、そのライセンス条項により、学術的または商業的な用途を含むあらゆる目的で使用、修正、拡張することが可能だ。LLMのリリースは、多くの定義でオープンソースとみなされているが、産業用ライセンスに縛られていた。先駆者はMetaのLLaMAで、StanfordのAlpaca、Koala、Vicunaがそれに続いている。

Dollyは、スタンフォードのプロジェクトの52kの質問と回答のデータを、ChatGPTの出力で学習させた。しかし、OpenAIの利用規約の通り、OpenAIと競合するサービスの出力を使うことは出来ない。DatabricksはDolly 2.0でこれを回避する方法を考え出したようだ。

Dolly 2.0は、オープンソースのEleuther AI pythiaモデルファミリーをベースにした120億パラメータの言語モデルで、Databricksの社員が作成した小規模なオープンソースの命令記録コーパス（databricks-dolly-15k）に限定して微調整が行われた。本データセットのライセンス条項により、学術的・商業的な用途を含め、あらゆる目的で使用、修正、拡張することが出来る。

Databricks社のCEOであるAli Ghodsi氏によると、このモデル「Dolly 2.0」は、AIコミュニティに「雪だるま式」の効果をもたらすことになるという。彼は、これが他の人たちの貢献や代替モデルの開発に協力するきっかけになると考えている。商用利用の制限は、乗り越えるべき大きな障害であったと説明する。

Source

Databricks: Free Dolly: Introducing the World’s First Truly Open Instruction-Tuned LLM

商用利用も可能で無料オープンソース大規模言語モデル「Dolly 2.0」が公開

iPhone 15 Proへのソリッドステートボタン追加、技術的問題から断念との報道

NASA、物理法則に反するほど明るい宇宙天体を確認

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

商用利用も可能で無料オープンソース大規模言語モデル「Dolly 2.0」が公開

iPhone 15 Proへのソリッドステートボタン追加、技術的問題から断念との報道

NASA、物理法則に反するほど明るい宇宙天体を確認

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル