GoogleとDeepMindが医療に特化した大規模言語モデル「Med-PaLM」を公開、人間の医師より安全性に優れた回答を示す

Google ResearchとDeepMind、医療領域に焦点を当てた大規模言語モデル（LLM）である、「Med-PaLM」を公開した。

Med-PaLMは、より正確性、そして特段の安全性が求められる医療分野において、有用な回答を生成することを目的としている。HealthSearchQAと、専門医試験、研究、消費者からの問い合わせをカバーする既存の6つの公開質問応答データセットを組み合わせたものだ。

医療関係者はもちろん、そうでない人でも、このMed-PaLMを利用することが可能だ。このプラットフォームは、様々なデータセットの配信を通じて、多肢選択式の質問に対応することができるという。

これらのデータセットは、NedQA, MedMCQA, PubMedQA, LiveQA, MedicationQA, そしてMMLUから提供されているものである。しかし、MultiMedQAの改良を目的として、HealthSearchQA と呼ばれる、精選され、頻繁に検索される医療問い合わせの新しいデータセットも追加されている。

HealthsearchQAデータセットは，消費者によくある質問3,375件から構成されている。これは，医学的な診断名とそれに関連する症状をシードとして収集されたものだ。このモデルは、MultiMedQAを用いた大規模言語モデルの評価のために、5400億パラメータの大規模言語モデルであるPaLMと、その命令調整型バリエーションFlan-PaLMを用いて開発された。

現在、Med-PaLMは、Flan-PaLMと比較して、特に優れた性能を発揮するとしている。MedPaLMの回答の正確性は92.6%と、臨床医が作成した回答の正確性である92.9%と同等であった。Flan-PaLMの回答は61.9%しか正確ではないと言われていることから、これは驚くべき結果だろう。

更に、医療従事者が作成した回答の6.5%、Flan-PaLMの回答の29.7%が悪影響に寄与すると判断されたのに比べて、Med-PaLMの回答は5.8%だけがネガティブな結果をもたらす可能性があると判断されており、全体として、Med-PaLMはより安全な回答を提供していることが分かった。

特に医療の分野では、ちょっとしたミスでも大きな結果につながる可能性があるため、より安全な回答を提供できるAIがあることは大きな意味がある。例えば、化学療法を受けている人に投与する量を間違えると、死に至る可能性すらあるのだ。

より複雑な医学的な質問に答えることは、Med-PaLMの能力を超えているかも知れないが、このプラットフォームはまだ発展途上であり、研究者たちはより良いものにするための改良を常に模索している。

AIはすでに医療の質を向上させるために利用されており、医療従事者を含むほとんどの専門家がこの変化を歓迎しているようだ。また、AIは医療用アプリの開発を加速させる助けとなることが期待されている。

AIがあれば、医療従事者は事務的な作業だけでなく、実際の医療行為に集中することができる。しかし、AIはまだ誤った答えを出す可能性があり、完璧ではない。それでも、AIが医療現場で大きな助けになっていることは否定できないだろう。

論文

arXiv.org: Large Language Models Encode Clinical Knowledge

参考文献

Interesting Engineering: Google and DeepMind just launched MedPaLM, a large language model

研究の要旨

大規模言語モデル（LLM）は、自然言語の理解と生成において素晴らしい能力を発揮してきたが、医療や臨床への応用における品質のハードルは高い。今日、モデルの臨床知識を評価する試みは、一般的に限られたベンチマークでの自動評価に依存している。また、モデルの予測や推論を幅広いタスクで評価するための基準も存在しない。この問題に対処するため、我々は、専門的な医学試験、研究、消費者の問い合わせにまたがる既存の6つの公開質問応答データセットを組み合わせたベンチマークであるMultiMedQAと、オンラインで検索された医学的質問の新しい自由回答データセットであるHealthSearchQAを提示する。また、モデル回答に対して、事実性、正確性、有害性、偏りなどの複数の軸で人間が評価する枠組みを提案する。さらに、5,400億パラメータLLMであるPaLMとその命令調整型であるFlan-PaLMをMultiMedQAで評価する。Flan-PaLMは、プロンプトの組み合わせにより、MultiMedQAのすべての多肢選択式データセット（MedQA, MedMCQA, PubMedQA, MMLU clinical topics）において最先端の精度を達成し、MedQA（米国医師免許試験問題）においても、従来の最先端を17%以上上回る67.6%の精度を達成することができた。しかし、人間による評価では、Flan-PaLMの応答には重要な欠陥があることがわかった。この問題を解決するために、我々は、少数の模範解答を使用してLLMを新しいドメインに適合させるためのパラメータ効率の良いアプローチである命令プロンプトチューニングを導入しています。その結果、Med-PaLMは有望な結果を得たが、臨床医にはまだ劣る。我々は、理解度、知識の想起、医療推論が、モデルの規模や指示プロンプトの調整によって向上することを示し、医療におけるLLMの潜在的な有用性を示唆するものである。我々の人間による評価は、現在のモデルの重要な限界を明らかにし、臨床応用のための安全で有用なLLMモデルの作成における評価フレームワークと手法開発の両方の重要性を補強している。