ニューヨーク州のコーエン小児医療センターを拠点とする著者らは、今回の研究にあたり、JAMA Pediatrics誌の臨床例から得た60件の小児科症例写真と、『New England Journal of Medicine』誌に掲載されたマサチューセッツ総合病院の「症例報告」セクションにある40件の小児科症例を用いた。これらの症例は、2013年から2023年の間に報告されたものだ。
ChatGPTは、計100件の症例のうち72件を完全に誤診した。そのほか、正しい診断に近いが正確とは言えないケースも11件あった。
ChatGPTによる診断ミスのなかには、実際の診断に近いものもあったのは確かだが(嚢胞[のうほう]を瘻孔[ろうこう]と診断するなど)、まったく的を外しているものもあった(命を脅かす血小板の異常と、治療可能なビタミン欠乏症を取り違えるなど)。
前述した学術誌の症例報告には、患者の病歴、放射線画像、身体所見の写真、検査値など、多数の臨床情報源が含まれる傾向がある。生検が実施された場合には、試料の顕微鏡写真が含まれることもある。ChatGPTは多面的な情報を取り込めるが、特定の患者の全般的な病状の微妙な具合まで理解できないという弱点が残されている。
ChatGPTのような大規模言語モデルにもとづく技術が、医療診断や治療においてますます重要な役割を果たすようになっていることは間違いない。2023年6月15日付で『JAMA Network』誌で発表された先行研究では、ChatGPT-4を用いて、New England Journal of Medicine誌から引用した成人の臨床例の診断精度を検証した。この場合、正確に診断できた確率は39%(70件中27件)だった。さらに、診断を確定できない場合でも、鑑別診断(考えられる診断のリスト)に正しい診断が含まれる確率は64%(症例70件中45件)だった。
小児科の診断を対象とした今回の研究では、ChatGPT-3.5の診断スキルがかなり低いことが示されたが、研究チームは悲観することはないと述べている。著者らは、医療ニュースサイト「Medpage Today」の取材を受けた際、医療における大規模言語モデルの利用を模索することを医師たちに促している。現時点では、医師からの直接的なプロンプトをもとに、患者に提供する情報を生成する手段として採用するのがよいだろう。
現在のAIプログラムに伴う問題のひとつは、患者の病歴の一要素を、病歴や症例の別の要素と結びつける際に、情報を読み解けないことだ。例えば、生涯にわたって続く特定の疾患を有する患者では、場合によっては特定の医学的な問題が生じやすくなる。だが、そうした先行する疾患が、テキストや写真のなかで記述されていないと、AIプログラムはその情報を取り込んで評価することができない。そうした状況では、経験、微妙な解釈、医学全般の広い知識が力を発揮する。
大規模言語モデルは、医療診断や治療の補助役としては進化しているものの、現時点では、医師などの医療専門家の存在が依然として必要とされているのだ。
(forbes.com 原文)