ビジネス向けのSNSであるリンクトインの調べによれば、2012年から17年の5年間で、全米におけるデータサイエンティストの求人は650%増。これは、高度なデータ分析能力が必要とされる機械学習エンジニアに次いで、2番目に需要が伸びている職種で、早くも人材不足も指摘されています。
また、世界経済フォーラムでは、「データアナリストは2020年までにあらゆる産業でもっとも重要な職種となる」と発表されています。
このような人材ニーズにこたえるため、米国では、短期集中型のブートキャンプや社会人向け大学院コースなどのかたちで、データサイエンスに必要なスキルを教える機関が急速に増えてきています。
就職をひかえた大学生の間でも、文系理系を問わず、「データドリブン(データ分析を通して意思決定をする)のスキル」が将来の人材競争で生き抜くために必須であるというイメージが確立されつつあります。
しかし、私が学ぶミネルバ大学大学院では、真の意味で今後必要とされるのは、データドリブンよりデータインフォームド(Data-Informed)のスキルであると提案しています。
どういうことかというと、データによって何かを導く際には、必ず人間の意図が介在しているため、データが指し示す因果関係や主張の正当性、さまざまな利害関係者、組織の利益、ネットワークの関係性など、人間が無意識のうちに陥りがちな心理的バイアスを見分けるスキルを養う必要があるということです。
都合の良いストーリーへ誘導
分析者がデータによって何かを導く際、悪意をもってデータを利用する場合(フェイクニュースなど)と、悪意がなくとも無意識に都合のよい解釈をしてしまう場合があります。
たとえば、伝統的にデータを厳密に扱うとされるサイエンスの研究者コミュニティでは、統計的に有意があった(実験成果があったと証明する)ようにサンプルサイズを変えて、都合のよい検定手法で発表してしまう事例が発生しています。また有意ではない実験結果は、伏せられるか公表されないことなどもあります。
悪意がないのにデータが歪められてしまうといったことが起こるのは、データ分析のほぼ全ての過程に、人間の判断で方針を決める工程が入ってくるからです。
とくに、Transform(プロジェクトの目的に沿って観察対象を狭めたり、変数を追加したり、特定の集計の仕方を組み合わせる)の過程では、ほとんどが担当者の判断に任せられるため、 正しい目的設定ができないとデータ分析全体のクオリティは大いに損なわれるというリスクに晒されています。
(図:データ分析のワークフロー 参照元:http://r4ds.had.co.nz/introduction.html)
NPOや政府系団体でさえも、実証実験で主張を通りやすくし資金調達を効果的に引き出したいという動機から、実証結果が有意であると結論付けるために、本来のプロセスに逆行してしまうことがあります。つまり、有利な結果を得るために、Import→Transform→Communicateの過程のなかでデータを操作し、偏ったデータに基づいた結論を引き出して、全体の実証実験のクオリティを損ねてしまうケースもあります。