Googleが、ChatGPT及び、MicrosoftのBingに対抗すべく開発した「Bard」という名のAIチャットボットだが、その性能については否定的な見方も多い。初めてこれを公にした際には、Bardが不正確な情報を共有したため、アルファベット社は市場価値1,000億ドルを失った。CEOのSundar Pichai氏は、Bardはまだ開発初期段階であり、「もっと多くの人々がBardを使い、その能力を試すようになると、驚かされることがある。何かがうまくいかないことがある」と全社員に宛てた手紙で述べていた。Bardは現在、英国と米国の一般の人々にテストされている。
Fortune誌は、最近、米国の大学入学に広く使用されている標準化されたテストである「SAT」を用いて、このBardをテストした。SATは、主に読解、作文、数学のスキルをテストする。
Fortuneは、インターネット上の学習教材からSATの数学のサンプル問題を取得し、Bardは、複数の正答がある場合でも、正答率が25~50%だったと報告している。同じ問題が再び提示されたとき、Bardは選択肢にない答えを提供する事すらあった。
また、Fortuneとの最初の筆記言語テストでも、Bardは約30%の正解率で、しばしば質問を二度尋ねる必要があったという。例え明らかに回答が間違っていた場合でも、「Bardのトーンは自信にあふれている」ため、「正しい答えは…」というフレーズで回答を述べることが多いとも報じられている。
読解テストでは、数学テストよりも優れた結果を残し、正解率は約50%だった。総合的にBardのスコアは1,200点で、Howard大学、San Diego State大学、Michigan State大学などに合格するために必要なスコアだったという。OpenAIのGPT-4が、SATスコアにおいて、人間の上位10%に入るほどの高得点を獲得していることを考えれば、かなり劣っていると言わざるを得ない。
Googleの広報担当者は、Fortune誌に「Bardは実験的であり、回答が正確であるとは限らないため、Bardの回答で情報を確認することをお勧めします。フィードバックにより、Bardは日々改善されています。Bardが一般公開される前に、品質、安全性、正確性を向上させるために数千人のテスターが参加しました。私たちのAI原則に沿ったフィードバックのメカニズムが明確にあり、安全性についても制御が内蔵されていますが、不正確な情報を表示する可能性があることに注意してください。」とコメントした。
Bardは、Googleのような大手テック企業が開発している最新の自然言語処理技術を使用しており、人工知能としては一定の成果を挙げている。しかし、Bardがまだ開発初期段階であることが、今回の報道からも窺える。Bardは、テストを通じて常に改善され、正確性を高めることが期待される。
Source
コメントを残す