コンピュータモデル
従来の感染症予測のアプローチは、過去の症例データにコンピュータモデルを当てはめ、その軌跡を何らかの洗練された方法で外挿するというものだ。これは気象予報で使われている。このタイプの予測方法は、物理プロセスの数学的あるいは統計的表現に依存しており、数式が過去のデータを再現するまで一定の変数を調整していく。その後その数式を未来に向けて実行する。予測者は確率モデリングまたは統計的リサンプリングを用いて将来予測にまつわる不確定性を表現する場合もある。
2013年以来、CDC(米疾病管理予防センター)のPredict the Influenza Season Challenge(インフルエンザシーズン予測チャレンジ)の一環として、インフルエンザの流行予測が、学術および国立研究所のグループによって実施されている。コンテストはインフルエンザのモデリングと予測の革新を促進するために設立された。こうした毎年恒例のチャレンジは、FluSight Networkなどの組織によって補完され、またCovid-19 Forecast Hub(新型コロナ予測ハブ)のような新規プロジェクトの立ち上げを可能にした。これらのチャレンジで私が気に入っているのは、あらゆる既存の予測手法のスキルが厳密にテストされる仕組みができていることだ。予測は将来観察される出来事について提案されるため、不正の可能性がない。この競技方法は科学者にアピールし、どのグループも最善のアイデアを出すことが約束されている。
専門家の判断
もう1つのアプローチは、専門家の意見を求め、その専門的判断を統計的に集約するというものだ。専門家の意見モデルは、コンピュータモデルを凌ぐこともある。データに欠落がある場合は特にそうだ。そこでコンピュータモデルに必要なデータが揃わなかったパンデミック初期、マサチューセッツ大学アマースト校は、専門家37人の意見の変化を評価する研究を実施した。(情報開示:筆者は調査対象の専門家の1人)。
同研究による以下のグラフを見ると、グループ全体として専門家たちは、短期的な流行拡大(週ごとの新規感染者数予測)および長期的(暦年末まで)な死者数予測の両方で、かなりよい成績を収めた。
(A)専門家による2020年末時点の死者総数の予測。2020年3月16日~5月4日間に5回調査を行った。各点が予測の中央値を表している。上下に伸びたバーは最初の4回の調査では90%予測区間、5回目の調査では80%の予測区間を表している。点線は2020年12月31日時点のCOVID Tracking Projectによる報告層死者数。(B)専門家による月曜日と火曜日に行った週の終わり(日曜日、日付はX軸に表示)の感染者数予測。2020年2月23日~5月17日の期間に13回調査を実施した。90%予測区間が青色のバーで表されている。13回の予測すべてで、実際の感染者数が予測区間内に入っていた(MCANDREW T, REICH NG [2022] AN EXPERT JUDGMENT MODEL TO PREDICT EARLY STAGES OF THE COVID-19 PANDEMIC IN THE UNITED STATES. PLOS COMPUT BIOL 18[9]: E1010485. HTTPS://DOI.ORG/10.1371/JOURNAL.PCBI.1010485)
もちろん、2020年夏までにははるかに多くのデータが揃い、ほとんどの予測者がコンピュータ手法に戻った。
しかしコンピュータを使った方法には限界がある。たとえば、コンピュータモデルはすぐには過去の経験から情報を借りることはできない(ただし、この分野は最近進歩している)。特にコンピュータモデルは、学習に必要なデータがまだ存在しない新しい病気では特に役に立たない。対照的に、人間の専門家による判断では、専門家としての過去のあらゆる関連経験を利用する。
これは人間の判断がコンピュータモデルより優れているという意味ではない。特に、人間は確証バイアス、誤った推論などの認知バイアスに陥る可能性が極めて高い。
そこで当然ある疑問が生まれる。コンピュータモデルと人間の判断を何らかの系統的方法で組み合わせることによって両方の長所を活かせるのではないか?
ハイブリッドの「キメラ式」予測
それがキメラ式予測(chimeric forecasting)の背景にある考えで、確率モデルを使ってコンピュータモデルと人間の専門家の予測に重みづけをする新しいアプローチだ。そして今、リーハイ大学のトム・マッカンドリュー准教授率いる研究チームが、感染症のためのキメラ式予測の最初の分析を公開した。
作業は新型コロナパンデミックの中期段階に実施された。デルタ株の波がくる直前の2021年1~6月に、毎月専門家に調査票が送られた。回答者は翌週に米国で観測される新型コロナの症例数と死者数を予測するよう依頼された。それらの質問は、コンピュータのための新型コロナ予測ハブの予測項目に対応している。人間の判断の調査とコンピュータモデルの目標は同じなので、両者を比較して組み合わせることが可能だ。
下の図は、時間とともに観測された感染者数(パネルA)と死者数(パネルC)を、コンピュータモデル(青)と人間の判断(赤)による予測を並べて表示している。
全米レベルの週単位の感染者数(A)および死者数(C)のコンピュータモデルのアンサンブル(青)と人間の判断のアンサンブル(赤)、および感染者数(B)と死亡数(D)の荷重間隔スコア(予測能力の指標)。荷重間隔スコアが低いほど予測性能が高いことを意味している(MCANDREW, T., CODI, A., CAMBEIRO, J. ET AL. CHIMERIC FORECASTING: COMBINING PROBABILISTIC PREDICTIONS FROM COMPUTATIONAL MODELS AND HUMAN JUDGMENT. BMC INFECT DIS 22, 833 [2022]. HTTPS://DOI.ORG/10.1186/S12879-022-07794-5)
パネルBとDは、それぞれの予測の時間に沿った成績を、weighted interval score(加重間隔スコア)と呼ばれる統計値を使って表している。スコアが低いほど成績が良い。
いくつか非常に興味深いことがこのグラフから読み取れる。最も興味深いのは、2つの予測スキームの最有力予測(グラフ中の点)、予測の幅(バー)、および成績がよく似ていること(ただしコンピュータモデルが人間の判断を僅差で上回っている)、もう1つ興味深いパターンは、感染者数と死者数が多い時には、2つのモデルの誤差範囲(バーの長さ)がほぼ同じなのに対して、感染者数と死者数が少ない時には、人間判断モデルの誤差範囲の方が小さいことだ。これが人間判断の自信過剰なのか、より現実的に一般化する人間の能力を反映しているのかはわからない。
では、2つのアプローチを組み合わせるとどうなるのか。本論文の著者らは、人間判断とコンピュータモデルの確率的期待値を組み合わせるアンサンブル・アルゴリズムを開発した。組み合わせた結果は、未来の感染者数については、コンピュータ予測よりわずかに改善され、未来の死者数についてはほぼ同じ成績だった。すなわち、このケースではキメラ式アプローチの付加価値はほとんどない。
また著者らは、人間判断モデルの問題もいくつか指摘している。最も注目すべきなのは、人間の専門家は、自身の予測値を実際に提出することに関して、コンピュータよりも確実性が低いことだ。彼らは直近のデータを時間をかけて見直し、検討した後に新たな予測値を提出しなければならない。一方コンピュータは、新しいデータを取り込み、モデルを更新し、ボタン1つで、あるいはボタンなしの自動化プログラムによって新たな予測結果を提出できる。
私の結論は、感染症予測にキメラ式モデルが必要である証拠はまだ見つかっていないように考える。これは、将来の研究開発によってそのようなモデルの優秀さが明らかになる可能性を否定しているわけではない。しかし、今そこまで到達していないのは間違いない。もう1つ、コンピュータモデルと人間判断モデルがおおよそ同じ成績だというのも興味深い。これは、感染症流行を予測することの本質的限界によるものかもしれない(以前私はこのテーマで論文を書いた)。また、コンピュータモデルが、人間が見つけた以上のどんなパターンも特定できていないこと、そして人間も、コンピュータモデルがデータから学習できないことについて特別なことは何も知らないことを研究は示唆している。
では、どうするのか? 私は感染症予測の未来について今も楽観的だ。テクノロジーとしての感染症予測はまだ生まれたばかりだ。他の予測対象、たとえば気象予報は、科学知識が蓄積され、高度に分析されたデータが新たに入手できるようになり、強力なコンピュータが開発されて技術が成熟するまでに何十年もかかった。感染症予測にも同じことが起きると私は期待している。
(forbes.com 原文)