ds modeling
まず結論
共起頻度・支持度(Support)・信頼度(Confidence)・リフト値(Lift)は、 アソシエーション分析(購買パターン分析)で「XとYが一緒に起こる関係」を評価する指標です。
DS検定では主に次の判断を問われます。
- 共起の多さ → 支持度
- 条件付き確率 → 信頼度
- 偶然かどうか → リフト値
つまり
「一緒に起きる頻度」と「偶然ではない関係」を区別できるか
が重要になります。 prev: /ds/association-analysis/ next: /ds/basket-analysis/ —
直感的な説明
通販サイトを例に考えます。
「パンを買う人は牛乳も買う」
というルールを見つけたいとします。
そのとき次のような指標を使います。
支持度(Support)
パンと牛乳を 両方買った人の割合
→ どれくらい頻繁に起きるか
信頼度(Confidence)
パンを買った人の中で 牛乳も買った割合
→ パン → 牛乳のルールの強さ
リフト値(Lift)
パンを買う人は 普通よりどれくらい牛乳を買いやすいか
→ 偶然ではないかを判断
イメージ
支持度 = 一緒に起きる割合 信頼度 = Xが起きたときYが起きる割合 リフト = Yの通常確率と比べてどれくらい強いか
DS検定ではこの 3つの役割の違いを理解しておくことが重要です。
定義・仕組み
X → Y というルールを考えます。
例
X = パン購入 Y = 牛乳購入
共起頻度
X と Y が 同時に起きた回数
共起頻度 = X ∩ Y の件数
データ件数の 絶対数です。
支持度(Support)
X と Y が 同時に起きる割合
Support = P(X ∩ Y)
つまり
共起回数 ÷ 全データ数
になります。
信頼度(Confidence)
X が起きたとき Y が起きる確率
| Confidence = P(Y | X) |
つまり
XとYの共起回数
Xが起きた回数
です。
リフト値(Lift)
信頼度を Yの通常確率と比較した指標
Lift = Confidence / P(Y)
意味は
Xが起きたとき Yは普通よりどれだけ起きやすいか
になります。
リフト値の解釈
| リフト値 | 意味 |
|---|---|
| 1 | 関係なし(独立) |
| >1 | 正の関係 |
| <1 | 負の関係 |
つまり
リフト値が1より大きいと意味のあるルール
と考えます。
どんな場面で使う?
代表的なのは レコメンド(推薦)です。
例
ビール → おつまみ スマホ → ケース カレー → 福神漬
こうした
一緒に買われやすい商品
を見つけるために使います。
この分析を
アソシエーション分析(Association Analysis)
と呼びます。
DS検定でも
- レコメンド
- 購買分析
- マーケットバスケット分析
の文脈で出題されます。
よくある誤解・混同
誤解①
共起回数が多い=強い関係
これは誤りです。
例
牛乳は誰でもよく買う
この場合
牛乳との共起回数は増えます。
しかし
関係があるとは限りません。
そのため
支持度 → データ量 信頼度 → 条件付き確率 リフト → 偶然補正
という 役割分担があります。
誤解②
信頼度が高い=意味のあるルール
これも誤りです。
例
X → 牛乳
牛乳は誰でもよく買うので 信頼度は高くなりやすいです。
そこで
リフト値
を使って
偶然かどうか
を判断します。
DS検定では
信頼度が高い → 強いルール
という選択肢が出たら 注意です。
誤解③
X→Y と Y→X は同じ
これは違います。
信頼度は
| P(Y | X) |
なので
X → Y Y → X
では値が変わります。
つまり
方向性がある指標
です。
まとめ(試験直前用)
- 支持度 → 一緒に起きる割合
- 信頼度 → Xが起きたときYが起きる確率
- リフト値 → Yの通常確率と比較した強さ
- リフト値 > 1 で意味のあるルール
- DS検定では 信頼度とリフト値の違いがよく問われる
対応スキル項目(データサイエンス力シート)
- データ分析基礎
- データの関係性理解
- ★ データ間の関係性を分析する基本的な手法を理解している
🔗 関連記事
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】
- バスケット分析とは?(リフト値まで整理)【DS検定】