アソシエーション分析とは、データ間の相関関係の強さを計算してルールを抽出する分析手法。
購買履歴のデータを用いてどの商品が一緒に購入されるかの分析に用いられるため、「バスケット分析」とも呼ばれる。
IF X THEN Y を X→Y と表記する。(X:前提部、Y:帰結部)
(例えばスーパーで、ネギ(X)を買ったときに豆腐(Y)を買う というルールをX→Yと表記する。)
- 信頼度: 前提部(X)を満たすデータが帰結部(Y)を満たす割合
X→Yの数
----------
Xの数
X→Yというルールがどの程度信頼できるか(相関関係が強いか)を示す。
信頼度が高い = その組み合わせの相関関係が強い
(ネギが買われたケースのうち、どのくらいネギと豆腐がセットで買われたか)
- 支持度: 全データの中にX→Yが登場する割合
X→Yの数
-----------
全体の数
X→Yというルールが全体の中でどの程度発生するかかを示す。
ビジネスのボリュームをみる。
これが小さければ、X→Yというルールに着目しても影響度が少なすぎる。
(ネギと豆腐をセットで買うケースが全体の中でどれくらいあるか)
- リフト: Yの全体比率とX→Yの信頼度との比
X→Yの信頼度
---------------
Yの全体比率
X→Yの引き上げ効果がどの程度あるかを示す。
これが小さければ、Y単体の魅力であり、X→Yという引き上げ効果はない。
(ネギを買えば豆腐を買うという信頼度は、豆腐を買う全体比率と比べて高いか)
***言い換えると***
前提部の影響により、帰結部が発生する割合がどのくらい増加するかを表す。
リフトが1を下回っている場合、前提部により帰結部の発生割合が増えていない
ため、その組み合わせに意味があるとは言えない。
(例題)
購入ケース1: ネギ、豆腐、牛乳
購入ケース2: ネギ、豆腐、白菜、豚肉
購入ケース3: ネギ、豆腐、みょうが
購入ケース4: 醤油、豆腐
ネギ(X)→豆腐(Y)の
信頼度 = 3/3 = 1
支持度 = 3/4 = 0.75
リフト = 1/1 = 1 (実は引き上げ効果はない。やってもやらなくても効果同じ)
- 分析手法は、Aprioriアルゴリズムを用いる。
0 件のコメント:
コメントを投稿