ds modeling
DS検定トップ
> バスケット分析とは?(リフト値まで整理)【DS検定】
まず結論
バスケット分析とは、「一緒に買われやすい商品」を確率で分析する手法です。
DS検定では「支持度・信頼度・リフト値の意味を理解し、どの関係が強いかを判断できるか」が問われます。
直感的な説明
スーパーやECサイトで、
- 「この商品を買った人は、こちらも買っています」
- 「Aを買った人の50%がBも買っている」
と表示されることがありますよね。
これは偶然ではなく、購買履歴データから“同時に買われる傾向”を分析しているのです。
重要なのは、
- ただ「一緒に買われた回数が多い」だけでは不十分
- もともと人気商品なら当然多くなる
という点です。
そこで使われるのが:
- 支持度(Support)
- 信頼度(Confidence)
- リフト値(Lift)
です。
DS検定では、
「どの指標が“本当に関係が強い”ことを示すか?」
という判断問題がよく出ます。
定義・仕組み
ある商品Aと商品Bがあるとします。
① 支持度(Support)
AとBが同時に買われる割合
\[P(A∩B)\]意味:
「全体の中で、AとBが一緒に出現した割合」
→ どれくらい“頻繁に”出てくるかを見る指標
② 信頼度(Confidence)
Aを買った人のうち、Bも買った割合
\[P(B|A) = P(A∩B) ÷ P(A)\]意味:
「Aが起きたとき、Bがどれくらい起きやすいか」
→ 条件付き確率
DS検定では
信頼度=条件付き確率 と理解しておけばOKです。
③ リフト値(Lift)
\[Lift = P(B|A) ÷ P(B)\]意味:
「Aがあることで、Bがどれだけ“増えているか”」
- Lift = 1 → 無関係
- Lift > 1 → 正の関係(AがあるとBが増える)
- Lift < 1 → 負の関係
これが最重要です。
DS検定では
「本当に関連が強いのはどれか?」という問いでリフトを見る
というパターンが頻出です。
どんな場面で使う?
✔ 使う場面
- 小売の購買履歴分析
- ECのレコメンド
- クロスセル施策
- セット販売戦略
✔ ビジネス上の意味
- 商品配置の最適化
- 同時購入キャンペーン
- 在庫戦略
単なる統計問題ではなく、
売上向上のための分析手法 です。
よくある誤解・混同
❌ 支持度が高い=関係が強い
違います。
支持度が高いのは「よく売れている」だけかもしれません。
❌ 信頼度が高い=因果関係がある
違います。
Aが原因でBが起きたとは言えません。
DS検定では
「相関と因果を混同させる」問題がよく出ます。
❌ リフト値を見ない
選択肢で
- 「最も関連が強い組み合わせはどれか」
と問われたら、リフト値を見る。
支持度や信頼度だけで判断しないこと。
まとめ(試験直前用)
- バスケット分析=同時購入の関係を見る手法
- 支持度=同時出現の割合
- 信頼度=条件付き確率
- リフト値=本当に関連が強いかを示す指標
- DS検定では「どの指標で判断するか」が問われる
迷ったら:
“関連の強さ”ならリフト値
対応スキル項目(データサイエンス力シート)
- 数理・統計基礎力
- 確率・統計基礎
- ★ 確率・統計の基礎概念を理解し、ビジネス課題に適用できる
🔗 関連記事
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】
- 共起頻度・支持度・信頼度・リフト値の違いとは?【DS検定】