商用利用も可能で無料オープンソース大規模言語モデル「Dolly 2.0」が公開

masapoco
投稿日 2023年4月13日 15:56
dolly hero

Databricksは、チャットボット、テキストサマライザー、基本的な検索エンジンなどのアプリを動かすことができるテキスト生成AIモデル、「Dolly 2.0」をリリースした。これは、3月下旬にリリースされた第一世代のDollyの後継製品となる。驚くべき事に、これは独立系開発者や企業が同様に商業的に使用できるようにライセンスされているのだ。

同社の公式発表によると、Dolly 2.0は、指示に従い、透明でオープンなデータセット上で微調整された世界初のオープンソースの大規模言語モデル(LLM)とのことだ。

Databricks CEOのAli Ghodsi氏によると、商用利用可能なLLMは他にもあるが、「Dolly 2.0のように話しかけてくることはない」という。そして、トレーニングデータはオープンソースライセンスで自由に利用できるようにされているため、ユーザーはトレーニングデータを修正・改良することができるのだ。つまり、あなた独自のバージョンのDollyを作ることができると言う訳だ。

EleutherAI pythiaモデルファミリーに基づくこのLLMは、120億のパラメータを誇り、オープンソースのコーパスdatabricks-dolly-15kのみでファインチューニングが行われている。

Databricks社は、オープンソースへの継続的なコミットメントの一環として、Dolly 2.0が微調整されたデータセット(databricks-dolly-15k)も公開すると述べている。これは、数千人のDatabricks社員によって生成された15,000以上のレコードからなるコーパスで、Databricksはこれを、“ChatGPTの不思議な対話性を大規模言語が発揮できるように特別に設計された、初のオープンソース、人間が生成した命令コーパス”と述べている。

Databricksの社員がこのデータセットを作成し、そのライセンス条項により、学術的または商業的な用途を含むあらゆる目的で使用、修正、拡張することが可能だ。LLMのリリースは、多くの定義でオープンソースとみなされているが、産業用ライセンスに縛られていた。先駆者はMetaのLLaMAで、StanfordのAlpaca、Koala、Vicunaがそれに続いている。

Dollyは、スタンフォードのプロジェクトの52kの質問と回答のデータを、ChatGPTの出力で学習させた。しかし、OpenAIの利用規約の通り、OpenAIと競合するサービスの出力を使うことは出来ない。DatabricksはDolly 2.0でこれを回避する方法を考え出したようだ。

Dolly 2.0は、オープンソースのEleuther AI pythiaモデルファミリーをベースにした120億パラメータの言語モデルで、Databricksの社員が作成した小規模なオープンソースの命令記録コーパス(databricks-dolly-15k)に限定して微調整が行われた。本データセットのライセンス条項により、学術的・商業的な用途を含め、あらゆる目的で使用、修正、拡張することが出来る。

Databricks社のCEOであるAli Ghodsi氏によると、このモデル「Dolly 2.0」は、AIコミュニティに「雪だるま式」の効果をもたらすことになるという。彼は、これが他の人たちの貢献や代替モデルの開発に協力するきっかけになると考えている。商用利用の制限は、乗り越えるべき大きな障害であったと説明する。


Source



この記事が面白かったら是非シェアをお願いします!


  • iphone 14 camera
    次の記事

    iPhone 15 Proへのソリッドステートボタン追加、技術的問題から断念との報道

    2023年4月13日 16:07
  • 前の記事

    NASA、物理法則に反するほど明るい宇宙天体を確認

    2023年4月13日 15:44
    1 PIA25781 Magnetic Fields 1600

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事