Skip to the content.

まず結論

共起頻度・支持度(Support)・信頼度(Confidence)・リフト値(Lift)は、 アソシエーション分析(購買パターン分析)で「XとYが一緒に起こる関係」を評価する指標です。

DS検定では主に次の判断を問われます。

  • 共起の多さ → 支持度
  • 条件付き確率 → 信頼度
  • 偶然かどうか → リフト値

つまり

「一緒に起きる頻度」と「偶然ではない関係」を区別できるか

が重要になります。 prev: /ds/association-analysis/ next: /ds/basket-analysis/ —

DS検定トップ > 共起頻度・支持度・信頼度・リフト値の違いとは?【DS検定】

直感的な説明

通販サイトを例に考えます。

「パンを買う人は牛乳も買う」

というルールを見つけたいとします。

そのとき次のような指標を使います。

支持度(Support)

パンと牛乳を 両方買った人の割合

→ どれくらい頻繁に起きるか

信頼度(Confidence)

パンを買った人の中で 牛乳も買った割合

パン → 牛乳のルールの強さ

リフト値(Lift)

パンを買う人は 普通よりどれくらい牛乳を買いやすいか

偶然ではないかを判断

イメージ

支持度 = 一緒に起きる割合 信頼度 = Xが起きたときYが起きる割合 リフト = Yの通常確率と比べてどれくらい強いか

DS検定ではこの 3つの役割の違いを理解しておくことが重要です。

定義・仕組み

X → Y というルールを考えます。

X = パン購入 Y = 牛乳購入

共起頻度

X と Y が 同時に起きた回数

共起頻度 = X ∩ Y の件数

データ件数の 絶対数です。

支持度(Support)

X と Y が 同時に起きる割合

Support = P(X ∩ Y)

つまり

共起回数 ÷ 全データ数

になります。

信頼度(Confidence)

X が起きたとき Y が起きる確率

Confidence = P(Y X)

つまり

XとYの共起回数

Xが起きた回数

です。

リフト値(Lift)

信頼度を Yの通常確率と比較した指標

Lift = Confidence / P(Y)

意味は

Xが起きたとき Yは普通よりどれだけ起きやすいか

になります。

リフト値の解釈

リフト値 意味
1 関係なし(独立)
>1 正の関係
<1 負の関係

つまり

リフト値が1より大きいと意味のあるルール

と考えます。

どんな場面で使う?

代表的なのは レコメンド(推薦)です。

ビール → おつまみ スマホ → ケース カレー → 福神漬

こうした

一緒に買われやすい商品

を見つけるために使います。

この分析を

アソシエーション分析(Association Analysis)

と呼びます。

DS検定でも

  • レコメンド
  • 購買分析
  • マーケットバスケット分析

の文脈で出題されます。

よくある誤解・混同

誤解①

共起回数が多い=強い関係

これは誤りです。

牛乳は誰でもよく買う

この場合

牛乳との共起回数は増えます。

しかし

関係があるとは限りません。

そのため

支持度 → データ量 信頼度 → 条件付き確率 リフト → 偶然補正

という 役割分担があります。

誤解②

信頼度が高い=意味のあるルール

これも誤りです。

X → 牛乳

牛乳は誰でもよく買うので 信頼度は高くなりやすいです。

そこで

リフト値

を使って

偶然かどうか

を判断します。

DS検定では

信頼度が高い → 強いルール

という選択肢が出たら 注意です。

誤解③

X→Y と Y→X は同じ

これは違います。

信頼度は

P(Y X)

なので

X → Y Y → X

では値が変わります。

つまり

方向性がある指標

です。

まとめ(試験直前用)

  • 支持度 → 一緒に起きる割合
  • 信頼度 → Xが起きたときYが起きる確率
  • リフト値 → Yの通常確率と比較した強さ
  • リフト値 > 1 で意味のあるルール
  • DS検定では 信頼度とリフト値の違いがよく問われる

対応スキル項目(データサイエンス力シート)

  • データ分析基礎
  • データの関係性理解
  • ★ データ間の関係性を分析する基本的な手法を理解している

🔗 関連記事


🏠 DS検定トップに戻る