2024.04.07 13:00

GPT-4は人間の医師よりも病気の診断精度が高いが、ミスも多かった

Sai Balasubramanian, M.D., J.D. | Contributor

著者フォロー

記事を保存

Shutterstock.com

ベス・イスラエル・ディーコネス医療センター（BIDMC）の科学者たちが、新しい研究の中で、大規模言語モデル（LLM）の臨床推論能力（医師が診断や治療を決定するための能力）を人間の医師と比較した。なお、この研究において、臨床推論の結果を評価するための方法として、改訂版IDEA（r-IDEA）スコアが使用された。

研究では、GPT-4を搭載したチャットボット、21人の指導医、18人の研修医に20の臨床ケースが与えられ、診断推論のテストを行った。その後、すべての回答がr-IDEAスコアを使用して評価された。その結果、チャットボットが各グループのなかで最高のr-IDEAスコアを獲得し、診断推論に関してかなり高性能であることが証明された。しかし、その一方で研究者たちはチャットボットが「単純に間違っている」場合もより多かったと指摘している。

主任研究員であるステファニー・カブラル博士は、「LLMを臨床実践にどのように最も効果的に活用できるかを考えるためには、さらなる研究が必要だが、現時点でも、見逃しを防ぐためのツールとしては有用である可能性がある」と説明した。要約すると、この結果は、チャットボットの正しい診断推論能力も示したものの、重大なミスの存在も示している。これは、AI駆動システムが（少なくとも現在の成熟度では）医師の診断能力を置き換えるのではなく、医師の推論を補完するためのツールとして最適であるという考えをさらに強化するものだ。

医師や技術者たちがしばしば説明するように、これは医学の実践が単にルールのアルゴリズミックな出力に基づいているのではなく、深い推論と臨床的な直感に基づいているためであり、これはLLMによって再現することが困難なのだ。とは言え、診断や臨床サポートを提供できるようなツールは、医師のワークフローにおいて非常に強力な資産となり得る。例えば、患者の病歴や既存の記録などの利用可能なデータに基づいて、システムが合理的に「第一段階」または初期診断の提案を提供できれば、医師は診断プロセスで多くの時間を節約できるかもしれない。さらに、これらのツールが医師のワークフローを補助し、医療記録から大量の臨床情報を処理する手段を改善できれば、効率を高められるかもしれない。

多くの組織がこれらの臨床補助の可能性を活用している。たとえば、人工知能を搭載した会話の文字起こし技術は、自然言語処理を活用して、医師がより効率的に臨床文書を作成できるようにしている。また各企業が提供する検索システムでは、組織のリソースや電子カルテ（EMR）システムと統合されており、医師が大量のデータを検索し、データの相互運用性を促進し、既存の患者データからより迅速かつ深い洞察を得るのに役立っている。他のシステムも、初期診断を提案するのに役立つかもしれない。たとえば、放射線科や皮膚科の分野では、アップロードされた写真を分析して潜在的な診断を提案できるツールが登場している。

それでもなお、この分野ではまだ多くの進歩が必要である。端的に言えば、これらのAIシステムを臨床診断のためには「まだ」使うことはできないが、それでも、特に人間をしっかりとプロセスの中に位置付けながら、安全で安心できる正確なプロセスを確保するために、この技術を活用し臨床ワークフローを補強できる可能性はあるのだ。

（forbes.com 原文）

翻訳＝酒匂寛