我々がこれまでの成功と失敗の経験から学んだのは、データサイエンスの領域においても「人間中心デザイン」のアプローチが有効であるケースが多いということだ。
今回の記事では、IDEO Tokyoのデータサイエンティスト、越島健介とジョー・ガンビーノが、データ活用においてよくある落とし穴を回避し、プロジェクトを成功に導くためのヒントを、事例と共にお伝えする。
データ自体に価値がある、という思い込み
企業がデータ活用を試みる際、我々がよく目にするのは次のような流れだ。
まず、多額の資金を投じて大量のデータを収集し、アナリストやデータサイエンティストのチームがそれらのデータを分析、なんらかの問題を特定する。問題が見つかったら、チームはその問題を解決するための高度なアルゴリズムの開発に取り掛かり、最後にそれらを人々が使用できるようにするためのインターフェイスを開発。それをソリューションとして届ける。
一見すると、データからソリューションを開発するまでのプロセスがきれいな直線を描いているが、実際はそううまく行かないことが多い。
この直線的なアプローチでは、「問題が明確に定義されている」ことを前提とした上で、それを解決するための「技術」に重点を置いている。しかし、現実の世界は曖昧で複雑だ。問題の核心に迫るには何度も軌道修正が必要であるうえ、既存のデータセットの中にその問題解決のための情報が必ずしも記録されているとは限らない。
また、データを起点に問いを設定してしまうと、「データに価値がある」という前提に縛られてしまう。しかし、多くのデータは煩雑で直接的には使いにくく、前処理に多くの手間がかかる上に、そもそも解こうとしている問題によっては全く役に立たないことも多い。さらに、膨大な量のデータを保存して利用するために必要なインフラは高価であり、特定の目的に合わせて調整されている場合はデータに偏りがある場合もある。
他社が持っていないデータを保持することは競争優位につながることもあるが、問題を明確に定義する前にデータ収集に多額の投資をするのは注意が必要だ。