隆盛を極めていたOpenAIが突然の崩壊の危機に瀕している中、OpenAIの方向性について、意見の相違から退社した元OpenAIのエンジニアたちによって設立されたAnthropicは、ChatGPTのライバルであるAIチャットボット「Claude」の最新版である「Claude 2.1」をリリースした。
最新版のClaudeチャットボットは、コンテキストウィンドウが前バージョンの2倍となる20万トークンに拡張され。(トークンとは、情報を整理するために使用するテキストの塊のことで、コンテキストウィンドウとは、1回のリクエストで解析できるトークンの上限を設定したもの)、これにより、コードベース全体、財務報告書、あるいはホメロスの『イリアス』や『オデュッセイア』のような長編の文学作品さえアップロードして、要約、質疑応答、傾向の予測、複数の文書の比較などのタスクを実行できる。
「200Kの長さのメッセージを処理するのは複雑な作業であり、業界初の試みです。この強力な新機能をユーザーの手に届けられることに興奮していますが、通常であれば何時間も人手を必要とする作業も、Claudeの場合は数分で完了します。技術の進歩に伴い、待ち時間は大幅に短縮されると期待しています」と、Anthropicは述べている。
また、Claude 2.1では幻覚も半減し、精度が高まり、誤った回答が少なくなっているようだ。同社は、不正確な主張と不確実性の承認を分離する能力が向上したため、Claude 2.1が間違った答えを提供するよりも、知らないことを認める可能性が約2倍になったことが進歩の一因だとしている。
Anthropicによれば、Claude 2.1では、非常に長い文書でのエラーも30%減少したという。さらに、より堅牢なコンテキストウィンドウを使用した場合、「特定の主張を支持する文書であると誤って結論づける」割合が3~4倍低くなるという。
Anthropicは、開発者向けの特典もいくつか追加した。
新しいWorkbenchコンソールにより、開発者は「遊び場スタイルの体験の中でプロンプトを改良し、新しいモデル設定にアクセスしてClaudeの動作を最適化する」ことができるという。例えば、ユーザーが複数のプロンプトをテストしたり、SDK用のスニペットを生成するためにClaudeのコードベースを利用することができる。
もう一つの新しい開発者向けベータ機能である “ツール使用”は、Claudeを “ユーザーの既存のプロセス、製品、APIと統合する”ことを可能にする。同社は、複雑な方程式のための電卓の使用、平易な言語から構造化されたAPI呼び出しへの変換、ウェブ検索APIの使用、クライアントのプライベートAPIの利用、製品データセットへの接続などの例を挙げている。同社は、ツール使用機能は開発初期段階であり、顧客にフィードバックを提出するよう促している。
ただし、コンテキストウィンドウの大きさがそのまま利点になるとも限らない。以前発表された研究によると、大規模言語モデルは、入力の先頭と最後の部分が最も精度が高く分析され、入力データの真ん中にある場合、信頼性の低い結果を返す可能性が高くなると言う。特に入力が大きければ大きいほど、エラーのリスクは大きくなるようだ。
これはつまり実際には、大容量の文書を入力しても、文書の一部が分析に含まれない可能性があることを意味する。GPT-4 Turboベンチマークが示すように、このモデルは文書の冒頭で最も確実な情報を取得する。
Anthropicは、特に長い文脈において、前作よりも大幅な改善と言うが、今後、独立したベンチマークが、Claude 2.1の良し悪しを示すだろう。
Source
- Anthropic: Introducing Claude 2.1
コメントを残す