GoogleとDeepMindが医療に特化した大規模言語モデル「Med-PaLM」を公開、人間の医師より安全性に優れた回答を示す

masapoco
投稿日
2023年1月6日 10:50
medical llm ai

Google ResearchとDeepMind、医療領域に焦点を当てた大規模言語モデル(LLM)である、「Med-PaLM」を公開した。

Med-PaLMは、より正確性、そして特段の安全性が求められる医療分野において、有用な回答を生成することを目的としている。HealthSearchQAと、専門医試験、研究、消費者からの問い合わせをカバーする既存の6つの公開質問応答データセットを組み合わせたものだ。

医療関係者はもちろん、そうでない人でも、このMed-PaLMを利用することが可能だ。このプラットフォームは、様々なデータセットの配信を通じて、多肢選択式の質問に対応することができるという。

これらのデータセットは、NedQA, MedMCQA, PubMedQA, LiveQA, MedicationQA, そしてMMLUから提供されているものである。しかし、MultiMedQAの改良を目的として、HealthSearchQA と呼ばれる、精選され、頻繁に検索される医療問い合わせの新しいデータセットも追加されている。

HealthsearchQAデータセットは,消費者によくある質問3,375件から構成されている。これは,医学的な診断名とそれに関連する症状をシードとして収集されたものだ。このモデルは、MultiMedQAを用いた大規模言語モデルの評価のために、5400億パラメータの大規模言語モデルであるPaLMと、その命令調整型バリエーションFlan-PaLMを用いて開発された。

現在、Med-PaLMは、Flan-PaLMと比較して、特に優れた性能を発揮するとしている。MedPaLMの回答の正確性は92.6%と、臨床医が作成した回答の正確性である92.9%と同等であった。Flan-PaLMの回答は61.9%しか正確ではないと言われていることから、これは驚くべき結果だろう。

更に、医療従事者が作成した回答の6.5%、Flan-PaLMの回答の29.7%が悪影響に寄与すると判断されたのに比べて、Med-PaLMの回答は5.8%だけがネガティブな結果をもたらす可能性があると判断されており、全体として、Med-PaLMはより安全な回答を提供していることが分かった。

特に医療の分野では、ちょっとしたミスでも大きな結果につながる可能性があるため、より安全な回答を提供できるAIがあることは大きな意味がある。例えば、化学療法を受けている人に投与する量を間違えると、死に至る可能性すらあるのだ。

より複雑な医学的な質問に答えることは、Med-PaLMの能力を超えているかも知れないが、このプラットフォームはまだ発展途上であり、研究者たちはより良いものにするための改良を常に模索している。

AIはすでに医療の質を向上させるために利用されており、医療従事者を含むほとんどの専門家がこの変化を歓迎しているようだ。また、AIは医療用アプリの開発を加速させる助けとなることが期待されている。

AIがあれば、医療従事者は事務的な作業だけでなく、実際の医療行為に集中することができる。しかし、AIはまだ誤った答えを出す可能性があり、完璧ではない。それでも、AIが医療現場で大きな助けになっていることは否定できないだろう。


論文

参考文献

研究の要旨

大規模言語モデル(LLM)は、自然言語の理解と生成において素晴らしい能力を発揮してきたが、医療や臨床への応用における品質のハードルは高い。今日、モデルの臨床知識を評価する試みは、一般的に限られたベンチマークでの自動評価に依存している。また、モデルの予測や推論を幅広いタスクで評価するための基準も存在しない。この問題に対処するため、我々は、専門的な医学試験、研究、消費者の問い合わせにまたがる既存の6つの公開質問応答データセットを組み合わせたベンチマークであるMultiMedQAと、オンラインで検索された医学的質問の新しい自由回答データセットであるHealthSearchQAを提示する。また、モデル回答に対して、事実性、正確性、有害性、偏りなどの複数の軸で人間が評価する枠組みを提案する。さらに、5,400億パラメータLLMであるPaLMとその命令調整型であるFlan-PaLMをMultiMedQAで評価する。Flan-PaLMは、プロンプトの組み合わせにより、MultiMedQAのすべての多肢選択式データセット(MedQA, MedMCQA, PubMedQA, MMLU clinical topics)において最先端の精度を達成し、MedQA(米国医師免許試験問題)においても、従来の最先端を17%以上上回る67.6%の精度を達成することができた。しかし、人間による評価では、Flan-PaLMの応答には重要な欠陥があることがわかった。この問題を解決するために、我々は、少数の模範解答を使用してLLMを新しいドメインに適合させるためのパラメータ効率の良いアプローチである命令プロンプトチューニングを導入しています。その結果、Med-PaLMは有望な結果を得たが、臨床医にはまだ劣る。我々は、理解度、知識の想起、医療推論が、モデルの規模や指示プロンプトの調整によって向上することを示し、医療におけるLLMの潜在的な有用性を示唆するものである。我々の人間による評価は、現在のモデルの重要な限界を明らかにし、臨床応用のための安全で有用なLLMモデルの作成における評価フレームワークと手法開発の両方の重要性を補強している。



この記事が面白かったら是非シェアをお願いします!


  • FireShot Capture 162 Amazon.co .jp ps5 www.amazon.co .jp
    次の記事

    PS5の品薄は解消されたとSonyが発表

    2023年1月6日 11:30
  • 前の記事

    PlayStation 5は“縦置き”で使用すると冷却用の液体金属が漏れて故障する可能性がある

    2023年1月6日 9:58
    PS5-and-controler
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事