予測は難易度の高い離れ技。なぜするのか?
今回は、陽性者数の変遷データのみを頼りに、GoTo開始・停止などの政策が及ぼす影響を予測した。専門的には「非定常の時系列データに基づく反実仮想の予測」などと呼ばれるもので、さまざまな効果の測定や予測の中でも特に難易度が高い離れ技として知られている。
今回公表した予測は難しすぎる問題に取り組んでいると言え、高い確率で失敗し、私たちは恥をかくことになるだろうと予想している。にもかかわらず、なぜこの予測を公開したのか。それは、予測自体は失敗したとしても、なぜ失敗したのか、どのようにすれば失敗しなかったのか、といった問題に関する類まれに具体的な洞察が得られると期待しているからだ。
新型コロナウイルスをめぐる政策論議においては、公衆衛生や経済学といった分野の研究者や大学教授たちが、正しさを検証しようのない分析や議論、喧嘩を延々と続ける光景が目立つ。
データとエビデンスに基づく科学の力が期待されたこの局面で、いったい何が正しく何が間違いだったのか検証されずに時が過ぎ状況が悪化していることに、科学者の端くれとして忸怩たる思いがある。
このような状況に小さな楔を打ち込みたい。あえて正解か間違いかが白日の元に晒されるような分析と予測をソースコードとともに世に出し、未来の世界から忌憚のない批判を受けたいと考えた次第だ。
Googleを超える予測はできるか
新型コロナウィルスに関して正しさを検証できる分析や予測と言えば、すでにGoogleが長らく開発運用している陽性者数や死者数の予測基盤がある。
Googleのような外来の黒船大企業だけでなく、土着の研究者や企業もこのような試みを立ち上げていくことが大事だ。今回の予測は、Googleの陽性者数予測を超え、GoTo停止などの政策介入の影響まで予測しようという企てだ。
今後、GoTo停止中の検査陽性者や気温などのデータが明らかになるにつれ、図4で行った予測の検証を行う予定だ。さらにGoTo停止中の実測値データを用いて事後的な分析を行い、GoTo停止が感染拡大にどのような影響を与えたかをより信頼できる形で検証したい。地域や時期ごとの細かな検証を行うことで、GoToをどのようにデザインすれば感染防止と経済活動の両立を図ることができるかの議論に貢献することを目指す予定だ。
さらに長い目では、年明けのGoTo再開など新しく繰り出される政策の効果を順に予測し、予測を検証していきたい。予測・検証・改善の流れを繰り返すことで、GoTo停止のようなまだ起きていない政策の効果を予測するためにどのような技術・手法を用いるべきなのか、実装上どのような点に注意すべきなのかといった知見を得られるはずだ。GoToという特定の政策にとどまらず、様々な政策の効果予測・検証に貢献することが目標だ。
このような野心的すぎる課題に取り組む試みに共感いただける方がいたら、ぜひ今後の展開に参加していただきたい。公衆衛生・疫学・統計学・機械学習・経済学・政治学などの研究者、データ科学者やエンジニア、そしてこのような試みに資源提供していただける企業・政府・自治体などの協力を特に待ち望んでいる。
過去記事はこちら>>