2018.07.11 15:00

「知らないことすら知らない」誤差の範囲内

シバタアキラ | Official Columnist DataRobot Japanチーフデータサイエンティスト/物理学博士

著者フォロー

記事を保存

著者フォロー

記事を保存

shutterstock.com

アカデミックな研究においては、科学者のほとんどの時間がモデルのリスク管理に費やされます。「まだ見逃している間違いはないだろうか？」これは世界に対して新発見を主張する上で科学者が果たさなければならない責任ですし、またこれを仕損じたことでキャリアを失った科学者数知れません。

STAP細胞などはその稚拙な一端ですが、入念に準備されたニュートリノ振動観測実験において、光よりも速く移動する粒子の発見が報告されたり、後に存在しないと分かった粒子に名前をつけてしまったりというアクシデントはしばしば起こっています。

「全てのモデルは間違っているが、いくつかは実用的だ（All models are wrong, but some are useful）」

これは20世紀前半の統計学者ジョージ・ボックスの有名な言葉で、ストイックなデータ分析者にとっては「完璧なモデルなんてどのみち存在しないのさ」という慰めの言葉であり、実利主義のビジネスマンにとっては「無駄な心配などせずより利益が出るならばよしとせよ」という口実を与えてきました。

そして今やデータ分析は集計や可視化というレベルを超え、事業や日常生活の重要な意思決定を担うようになってきました。高い精度のモデルが求められる反面、一部の研究領域を除けばモデルの予測結果に対しての信頼性や間違いの可能性が定量的に解釈されている例はほとんど見られません。

実際のところ、渋滞予測が外れても大したことはないのかもしれませんが、自動運転中の車が人を跳ねるようなことがあれば話は大きく変わってきます。今年3月のウーバーの自動運転車の事故は、機械学習モデルが私達に「生と死の分岐点」を突きつけていることを感じさせる事件でした。

私達がデータから学び、ある程度未来を予測できたとしても、そこには様々な不確定要因があります。単純にデータが少なすぎて十分にパターンを学習できなかったというような統計的問題ももちろんありますが、より大きなリスクにつながるのは、データに記録された過去と来るべき未来の間の差分です。

データに基づく機械学習の精度はあくまでその過去データの中で推定されるものなので、今までに見たことのないような状況に対して正しい判断を行える保証はないのです。ですから、考えうる限り様々な状況におけるモデルの反応をテストしたり、学習時に使ったデータとその後のモデル利用時のデータの違いを定量的に検出する手法などを通じ、モデルのリスクをより正確に理解する手法は今後ますます発展が求められます。

最終モデルの信頼性が上がれば、モデルの適用可能性は大きく広がります。人命が関わるようなプロジェクトにおいては、法的枠組みなど未解決の問題も多いですが、人命にはかかわらないが、高い信頼性が求められる局面において、AIが安全性を証明していくことが、これからのAIの発展に必要とされています。