CitiusTech CEO、ラジャン・コーリ氏。テクノロジーと人間の創意工夫で医療エコシステムに新たな可能性をもたらす。
私が会う多くの医療業界のリーダーたちは、新しいデータシステムとAIに多額の投資をしている。これらのイニシアチブの多くは、信頼性と臨床的文脈という2つの基本要素に対処していないため、期待通りの成果を上げられないか失敗するだろう。
課題は技術ではない。信頼のギャップなのだ。
テクノロジーが進化するにつれ、インテリジェントシステムを構築するための従来の管理手法が失われつつある。今日、信頼性に関する普遍的な言語は存在しない。
有望な新システムが失敗するのは、ユーザーがそれを信頼していないからだ。医療チーム、保険請求処理担当者、さらには臨床ディレクターでさえ、命やコンプライアンスが懸かっている状況で、不完全あるいは誤解を招くデータに賭けようとする人はいないため、すべてを手作業で検証している。これにより、新システムが当初軽減すると約束していた認知的負担がさらに増加してしまう。
この躊躇が何千もの取引全体に広がると、なぜ多くのパイロットプロジェクトがデモでは良く見えても決して規模拡大しないのかが理解できる。そしてこれこそが、信頼性が想定されるのではなく、設計されなければならない正確な理由なのだ。
信頼性は、それを構築すれば測定可能になる。
私は、精度、再現率、F1スコアといった従来の分析指標では、リスクを十分に捉えられないことを学んだ。医療には独自の基準が必要であり、組織は厳しい問いかけを通じて信頼性を定量化する必要がある:
• 出力は、コード化された診断、症状、治療法など、基礎となる医療記録に忠実か(臨床一致スコアリング)?患者のカルテに5つの重要な状態が記載されているのに、要約ではそのうち3つしか捉えていない場合、必須の臨床データの40%が欠落していることになる。
• 譲れない要素を捉えているか(一致スコアリング)?例えば、患者がペニシリンにアレルギーがある場合、システムはその事実を報告するか、それとも見逃すか?
• 事実に基づいているか、それとも仮定を立てているか(ハルシネーションスコアリング)?提供された文脈に厳密に従った回答を提供しているか?それとも何かを作り上げているか?ワークフローに必要な忠実度を提供しているか?臨床的判断を逐語的な正確さでサポートするか?
• 一貫性があるか(一貫性スコアリング)?同じ患者ファイルを10回処理しても、同じ核心的な結論が得られるか?
• 生成された回答の情報源を正確に引用できるか(引用スコアリング)?回答が導き出される情報源に対して、回答は逐語的か?引用の正確性に関するユースケース固有の閾値は何か?
• 回答生成に使用される言語は、臨床ガイドラインの特定のスタイルや単語の精度と一致しているか(言語スコアリング)?
多くの最新のデータプラットフォームは、より多くの非構造化データや不完全なデータを許容するため、これらの安全策がさらに重要になる。それらがなければ、スピードはリスクを増幅するだけだ。これらのチェックをプロセスに組み込むと、最前線のチームはその違いを認識し、すべての出力を二重チェックするのをやめるほど、システムを信頼し始める。
文脈は2つ目の障壁だ。
堅牢な信頼性指標があっても、AIシステムが臨床的、規制的、運用的な文脈を理解していなければ、組織は成功できない。医療の意思決定は単純な質疑応答ではなく、地域のパスウェイ、専門家のガイドライン、支払者のポリシー、臨床医の知識に基づいた複数ステップの判断なのだ。
現在導入されている技術の多くは、このために設計されていない。世界最高の汎用エンジンを構築しても、臨床的・規制的なニュアンスを理解していなければ、失望させることになる。私は同じ失敗を何度も目にしている:テキストを美しく処理するが、心臓病のプロトコルがなぜ腫瘍学のパスウェイと異なるのかを理解できないモデル;ダッシュボード上ではきれいに見えるが、微妙な償還ルールに遭遇すると躓く自動化。
多くのチームは、従来の検索・検索アーキテクチャを追加することで、文脈の問題を解決しようとしてきた。しかしそれは成功していない。医療には、検索だけでギャップを埋めるには暗黙の文脈が多すぎるのだ。
前進する道は、専門知識をコード化することだ。
だからこそ私はナレッジプラットフォームについて話すのだ。これは単なる技術用語ではなく、組織の専門知識を機械が消費可能にする方法だ。つまり、現在PDFや専門家の頭の中に存在する臨床パスウェイ、専門家のガイドライン、地域のコンプライアンスルールを、構造化され管理された知識資産に変換することを意味する。
一部の医療システムでは、すでに心臓病ケアのガイドラインを動的な知識グラフを構築するシステムに取り込んでおり、医師が検索しなくてもEHR内に次のステップが表示される。他のシステムでは、地域の承認ルールをコード化しており、要約が最初から支払者の基準に合致するようになっている。
重要な違いは、検索や別のワークフローに移動する必要なく、ワークフロー内でスマートな文脈化を可能にする方法でそれらを構築し、接続することだ。
最初は時間がかかるが、拒否の減少、より安全なケア、ブラックボックスのように見えるシステムを再確認するための無駄な時間の削減という形で報われる可能性がある。
企業レベルの違いは、設計段階から信頼と文脈を組み込むことだ。
これらのシステムをどのように管理するかについて、組織が意図的に転換しなければ、規模拡大は機能しない。私の経験では、組織は明確な段階を経て成熟していく。
最初は、プロジェクトはアドホックだ。誰もが独自のソリューションを構築し、多くの場合ベンダーの保証に依存している。やがて組織は、内部指標の定義、臨床医、エンジニア、データサイエンティスト向けのプレイブックの作成、各安全策が何をするのか、何をしないのかを理解するようになる。
次に、これらの信頼性と文脈の指標を新しいAIプロジェクトに直接組み込む段階が来る。この時点で、臨床一致スコアリング、一致チェック、ハルシネーション制御、一貫性の期待値が参入基準となる。提案されたシステムが基準を満たすことを証明できなければ、立ち上げられない。
最高レベルでは、組織は継続的に応答する。ユーザーからのフィードバック、本番システムからの指標、自動チェックを使用して適応する。なぜなら、信頼は静的なものではなく、日々維持していくものだからだ。
成功の真の指標とは何か?
どの組織でも最新のデータプラットフォームを購入できるが、知識をコード化し、プレイブックを構築し、規模で信頼性を設計するための作業を行うのはすべての組織ではない。
成功を見出すには、信頼性がどのようなものかについての企業全体の基準を確立し、一般的な「精度」を超えた方法でそれを測定することを意味する。それは、一般的なトレーニングデータセットではなく、最高の人材のように考えるシステムを構築することを意味する。そして、これらのチェックをすべてのプロジェクトに組み込み、ニーズとリスクの変化に応じて進化する安全策を備えることを意味する。



