ds modeling
まず結論
Aprioriアルゴリズム(アプリオリ)は、アソシエーション分析で「よく一緒に起きる組み合わせ」を効率よく見つけるためのアルゴリズムです。
DS検定では
支持度
信頼度
リフト値
とセットで出題されることが多く、
「支持度が低い組み合わせは探索しない」仕組みを理解しているか
が問われます。
直感的な説明
スーパーの購買データを考えます。
ビール → おつまみ パン → 牛乳 カレー → 福神漬
このような
一緒に買われやすい商品パターン
を見つけるのがアソシエーション分析です。
しかし商品が増えると
組み合わせ数
は爆発的に増えてしまいます。
例えば
商品100種類
あるとすると
組み合わせは膨大
になります。
そこで Apriori は
ありえない組み合わせを最初から調べない
という考え方を使います。
定義・仕組み
Aprioriアルゴリズムの基本ルールは次です。
「支持度が低い集合を含む組み合わせは必ず支持度が低い」
これを
Apriori性質(Apriori property)
と呼びます。
例
次のような商品を考えます。
パン 牛乳 卵
もし
パン + 牛乳
の支持度が低い場合
パン + 牛乳 + 卵
の支持度は
必ずさらに低くなります。
つまり
支持度が低い組み合わせは それ以上調べる必要がない
ということです。
この仕組みによって
探索する組み合わせを大幅に減らす
ことができます。
どんな場面で使う?
Aprioriは主に
マーケットバスケット分析
で使われます。
例
ECサイトのレコメンド
スーパーの購買分析
商品の棚配置
セット販売
例えば
ビール → おつまみ
というルールが見つかれば
ビールを買った人に おつまみをおすすめ
といったレコメンドが可能になります。
DS検定では
アソシエーション分析 ↓ Apriori
という流れで出題されることが多いです。
よくある誤解・混同
誤解①
Aprioriは機械学習モデルである
これは誤りです。
Aprioriは
予測モデルではなく「パターン発見アルゴリズム」
です。
分類や回帰のように
未来を予測する
ものではありません。
誤解②
信頼度だけでルールを評価する
これも誤りです。
信頼度は
条件付き確率
なので
Yが元々よく起きる場合
高くなりやすいです。
そのため
リフト値
とセットで評価します。
DS検定では
信頼度が高い → 良いルール
という選択肢が出ることがあります。
この場合
リフト値の確認が必要
という判断ができれば正解に近づきます。
誤解③
Aprioriはすべての組み合わせを調べる
これは違います。
Aprioriの特徴は
支持度が低い組み合わせは 探索しない
という 枝刈り(探索削減) にあります。
これによって
計算量を大きく減らす
ことができます。
まとめ(試験直前用)
Aprioriは アソシエーション分析の代表アルゴリズム
よく一緒に起きる商品パターンを見つける
支持度が低い組み合わせは探索しない
支持度・信頼度・リフト値とセットで理解する
DS検定では 支持度による探索削減が重要ポイント
対応スキル項目(データサイエンス力シート)
データ分析基礎
データの関係性理解
★ データ間の関係性を分析する基本的な手法を理解している
🔗 関連記事
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】
- 共起頻度・支持度・信頼度・リフト値の違いとは?【DS検定】
- バスケット分析とは?(リフト値まで整理)【DS検定】