膨大なログの中から特徴的な行動を抽出する
「ジーニアスエピソード理論はアソシエーション分析と呼ばれる購買データの分析などで用いられる手法をヒントに編み出された」
「アソシエーション……? まあ、聞きましょう」
「例えば購買データの中からマカロニと一緒によく購買される商品を抽出したいとする」
「マカロニを買った人の中で各商品を買った人の割合を計算してみたらいいのではないですか?」
「その値を"信頼度"という。小池くんの言うようにその値ももちろん参考になる。しかし、信頼度が高い商品は全てマカロニと同時によく購入される商品とみなしてよいだろうか。マカロニを買っている人は10人しかおらず、その中で他の商品を買っている人は一桁であるような場合、たまたまそういう人がいただけかもしれない」
「まあ、確かにそもそも全体の中でどれくらいの数がいるのかが重要そうですね」
「そう。そこで購買データにある全人数のうち、マカロニと各商品をどちらも買った人の数の割合を計算する。これを"支持度"という」
「わかりました。では信頼度と支持度が高い商品を選べばよいということですね」
「いや、まだ見落としている点がある」
「まだ!」
「もし信頼度と支持度から牛乳が抽出されたとして、牛乳はマカロニとよく購買されているというよりも、そもそも牛乳がよく購買される商品であり、マカロニともよく一緒に購買されているように見えているだけの可能性がある」
「まあ、そういうこともありそうですね」
「その場合、牛乳はマカロニだけに限らず、卵とも、白菜ともよく一緒に購買されていることになってしまい、"マカロニと一緒によく購買されている"という条件が意味をなさない」
「ではどうすればいいんですか」
「全体の中で牛乳を買った人の割合と、マカロニを買った人の中で牛乳を買った人の割合の比率を見ることにする。これを"リフト値"という。"信頼度"、"支持度"、"リフト値"という3つの指標を用いて、条件をみたす組み合わせを抽出する手法がアソシエーション分析」
「なるほど。これまでマカロニと同時によく購入されている商品を分析するような場合、"信頼度"的なものしか見ていなかったかもしれません」