2024.02.13 10:30

多すぎる「ChatGPTの誤診」が医療分野において意味すること

Omer Awan | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Shutterstock

小児科学の専門誌『JAMA Pediatrics』にこのほど掲載された論文によると、小児科の病状診断で、ChatGPT-3.5は100の症例のうち83例で正しく診断することができなかった。

論文の著者らによると、83例のうち72例は完全に誤診で、残る11例は臨床的には関連があるものの、正しい診断と見なすにはあまりに大まかなものだった。

この研究で留意したい点は、使用された大規模言語モデル（LLM）はChatGPTの古いバージョンだったということだ。それを踏まえた上で、これらの結果は医療分野における人工知能（AI）の活用にとって何を意味するのだろうか。

上記の論文は、臨床診断でAIツールやLLMを活用する際、医師の監督が重要であることを明確に示している。AIツールはまだ開発が始まったばかりで、医療分野で広く使用されるようになるにはさらなる研究と調査が必要だ。特に治療が患者の命に関わるような場合は、医師が常に最終判断を行い、治療を管理しなければならない。

医学的な解釈は往々にして微妙なものであり、さまざまな要因を汲んで総合的に理解することが求められる。例として、放射線科医が足のCTスキャンの読影で、ふくらはぎに皮下浮腫を見つけたとしよう。この所見は必ずしも特定の疾患や状態に特徴的に見られるものではなく、蜂巣炎や外傷による打撲傷、心不全からくる血管疾患など、多くの診断が可能だ。医師は最終的な診断を行うために、病歴など患者に関するあらゆる情報を参考にする。上記のシナリオでは、患者が発熱していれば蜂巣炎という診断になる可能性が高いが、患者が交通事故に遭っている場合、皮下浮腫は挫傷によるものである可能性が高い。

JAMA Pediatrics誌に掲載された論文で示されているように、AIがまだ改良される必要があるのはまさにこのような文脈の情報だ。小児の症例で適切な診断を行うには、症状のパターン認識だけでなく、患者の年齢や追加の文脈情報も考慮する必要がある。AIは確かにパターン認識には優れているが、症状からさまざまな診断が考え得るより複雑なケースでは正確な診断が行えない可能性がある。LLMによって行われる決定や診断を医師が管理・監督しなければならないのは、AIにこうした限界があるためだ。

では、医療業界は患者の治療を補助する手段としてのAIをあきらめるべきなのだろうか。

AIには非常に大きな利点があり、上記の論文は、研究者や科学者が引き続きLLMの開発を進めてAIの性能を向上させるための推進力となるべきだ。AIツールは、医療従事者の疲労軽減や患者とのコミュニケーション、処方箋の記録、遠隔治療などを支えて、医療を変革する可能性を秘めている。

AIツールやチャットボットは学習にデータセットが必要であり、ChatGPTなどのツールの性能を向上させるためにはより複雑なデータセットを使用する必要がある。用いられるデータセットが包括的で先入観が少ないものであるほど、性能は向上する。すでによく知られているように、先入観はAIツールの性能を制限する要素であり、AIソフトウェアの評価と改善を行う際に常に考慮すべきものだ。

JAMA Pediatrics誌で発表された論文については、医療におけるAI革命が、まだ我々の必要とするところまで到達していないと認識するための材料ととらえたい。AIは医療分野の課題に対する解決策ではなく、ひとつのツールであり、常に医師の専門知識と共に使用されるべきである。

（forbes.com 原文）

翻訳＝溝口慈子