ヘンリー・カステラノス氏が初めて自身の機械学習モデルを会社の経営陣に提示したとき、彼はデータ専門家の間であまりにも一般的で、ほぼ普遍的とも言える、ある種の自信喪失と戦っていた。
一方で、彼のモデルは素晴らしく見えた。どの歯科患者が予約に現れないかを確実に予測し、中規模の歯科医院チェーンが戦略的にリスクの高い時間帯を二重予約できるようにした。これは航空会社がフライトをオーバーブッキングするのとほぼ同じ手法だ。このプロジェクトは健全な収益を約束していた。ヘンリー氏のモデルが十分に正確に予測できれば、企業は空いた診察台の高いコストを劇的に削減でき、同時に2人の患者が同じ予約時間に現れた場合の影響をほぼ回避できる。
しかし一方で、ヘンリー氏のモデルは魔法の水晶玉と比較すると劣っていた。ランダムな推測の約2倍の精度だったが、魔法の水晶玉であれば、エラーなしに無断キャンセルのみを完璧に予測できただろう。具体的には、ヘンリー氏のモデルを使用してリスクが最も高い上位10%の患者、つまり無断キャンセルの可能性が最も高い患者にフラグを立てた場合、そのうち約半数が実際に来院しないことが判明する。これは、全予約の約4分の1が無断キャンセルだったため、ランダムな推測の約2倍優れている。
仮想的な透視モデルが自分のモデルを打ち負かすことは、必ずしもヘンリー氏を悩ませなかった。ほぼすべての資格を持つデータサイエンティストと同様に、彼は精度の低いモデルにも価値があることを知っていた。魔法の水晶玉は単なる幻想であり、機械学習から通常期待できる最善の結果は、推測よりも優れた予測をすることだ。そして、推測よりも優れた予測は、一般的に業務上の「数字のゲーム」を改善するのに十分であり、強力な収益向上をもたらす。
しかし、ヘンリー氏はまだ、自分のモデルを積極的に使用することをビジネス側に売り込まなければならなかった。
機械学習業界の日常的な失敗
会議が始まると、ヘンリー氏はそれを感じ取った。数字は健全だったが、経営陣を説得することはできないだろう。
「最終的に、私は本当に自信を持てませんでした」と、彼はビデオインタビューで私に語った。「自分のモデルが実際に価値があるかどうかという質問に対する直接的な答えを持っていませんでした。モデルを使用することが業務的にも財務的にも何を意味するのか、どうすれば本当に伝えられるのか疑問に思いました」
ヘンリー氏は技術的にモデルを検証していた。これは業界標準であり、一般的には十分と考えられているが、誤っている。その後彼が経験した内面的な葛藤は、予測AIの専門職に特有のものだ。この技術分野では、健全なモデルを作成するように教えられるが、その後、相対的な予測パフォーマンス、つまり技術的パフォーマンスに関してのみスクリーニングし、使用された場合に提供される絶対的なビジネス価値のデータ駆動型推定は行わない。
この標準的だが欠陥のある実践は、明白な普遍的格言を無視している。顧客の問題を最初に理解し、彼らの視点から物事を見ることなしに、何かを売ることはできない。予測AIプロジェクトに関して言えば、売られているのはモデルの使用だ。そして、データサイエンティストのビジネス側のカウンターパートは、モデルが「推測の2倍優れた予測をする」ことなど気にしない。
代わりに、彼らが気にするのはお金、あるいは他のKPIだ。
Q:あなたのモデルは優れているか? A:誰にもわからない
明確にしておくと、私自身もオタクとして、相対的に優れたパフォーマンスを確認するこの種の技術的指標を確かに気にしている。それは、モデルが訓練された通りに機能することを意味する。機械学習は一般的に成り立つパターンを発見した。これは現在、「ビジネスを行う」という数字のゲームで確率を有利にするために使用できるモデルとしてエンコードされている。推測の2倍優れた予測をするということは、モデルのリフトが2であることを意味する。リフトは、機械学習業界がモデルを評価するために使用する標準的な指標の1つだ。他の指標には、精度、再現率、F値、AUCがある。
しかし、これらの高尚な指標だけでは、顧客にもビジネスにも役立たない。それらはすべて同じテーマのバリエーションを達成する。モデルが相対的に優れたパフォーマンスを発揮することを示すが、その潜在的な絶対的価値についてはほとんど何も明らかにしない。それらは役立つが、十分ではない。
そのため、これらの標準的な指標に固執することで、データサイエンティストは通常、売り込もうとしているモデルについての最も明白な質問に答えられない。「それはどれくらい優れているのか?」モデルのパフォーマンスを価値に結びつけない限り、このモデルの良し悪しに関する質問への答えは主観的なままだ。ビジネス価値の推定がなければ、モデルが「悪い」と主張することも「良い」と主張することも同じくらい簡単だ。
なんという皮肉だろう。最も形式的で技術的な指標が物事を曖昧にする。さらなる洞察がなければ、それらは購入者の決定を気まぐれと空想の慈悲に委ねる。通常、理性が勝ち、情報不足の意思決定者はローンチを中止する。モデルは決して使用されず、プロジェクトは価値を実現しない。
この悲惨な事故は何度も繰り返される。数十年にわたる進歩と数多くの誇大宣伝の波の後でも、予測AIは依然として行き詰まり、失敗する運命にあるプロセスを日常的に踏襲している。
- 機械学習アルゴリズムとして知られる「ロケット科学」を使用してモデルを訓練する(良い!)。
- 潜在的価値を評価できない技術的指標の観点からのみモデルを評価する(悪い!)。
- ビジネス関係者にモデルの使用を説得できない。そのため、ほとんどの機械学習モデルは展開に失敗する。
代わりに、関係者に金銭的パフォーマンスを伝える
このような典型的なデータサイエンティストの経験、つまり営業トークに何かが欠けているという悩ましい感覚、そして関係者(つまり顧客)からの当初は目を見張るが最終的にはぬるい反応の後、ヘンリー氏は決定的で根本的な転換を行った。彼は経営陣に重要なもの、つまり利益を示すようになった。このモデルは年間50万ドルの追加収益を生み出すと予測された。
ヘンリー氏は、モデルが何をすることが期待されているかを正確に可視化した。モデルがフラグを立てた予約を二重予約することで、企業は一定数の空いた診察台を回避し、毎回数百ドルを節約できる。このプロセスは、時には誤って二重予約し、その都度不便を引き起こし、いくらかの金銭的損失(不満を持った患者を失うなど)をもたらすが、収益面での見返りは素晴らしく見えた。
この会議に臨むことは、まったく異なる経験だった。ヘンリー氏は、販売を成立させる根拠を備えた専門家としての自信を感じた。「これは、会議に入って『このモデルはお金を稼ぐだろう』と言う自信を持つために必要な検証を提供してくれたと感じました」ヘンリー氏の上司、そしてその上司の上司は興奮した。
教訓は明確だ。データサイエンティストの皆さん、その悩ましい感覚、ある種の自信の欠如は、何かを伝えている。ビジネス上の問題の解決策は、単に相対的に優れた予測をすることではない。解決策は、それが絶対的に価値があることを実証するのに十分なほど優れた予測をすることだ。データ専門家が古いが一般的なルートを取り、潜在的価値への可視性を提供しない場合、機械学習モデルの使用をビジネスに売り込む可能性は非常に低い。
ヘンリー氏のプロジェクトの詳細については、このビデオウェビナー、デモ、インタビューをご覧ください。



