Skip to the content.

DS検定トップ > Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】

まず結論

Aprioriアルゴリズム(アプリオリ)は、アソシエーション分析で「よく一緒に起きる組み合わせ」を効率よく見つけるためのアルゴリズムです。

DS検定では

支持度

信頼度

リフト値

とセットで出題されることが多く、

「支持度が低い組み合わせは探索しない」仕組みを理解しているか

が問われます。

直感的な説明

スーパーの購買データを考えます。

ビール → おつまみ パン → 牛乳 カレー → 福神漬

このような

一緒に買われやすい商品パターン

を見つけるのがアソシエーション分析です。

しかし商品が増えると

組み合わせ数

は爆発的に増えてしまいます。

例えば

商品100種類

あるとすると

組み合わせは膨大

になります。

そこで Apriori は

ありえない組み合わせを最初から調べない

という考え方を使います。

定義・仕組み

Aprioriアルゴリズムの基本ルールは次です。

「支持度が低い集合を含む組み合わせは必ず支持度が低い」

これを

Apriori性質(Apriori property)

と呼びます。

次のような商品を考えます。

パン 牛乳 卵

もし

パン + 牛乳

の支持度が低い場合

パン + 牛乳 + 卵

の支持度は

必ずさらに低くなります。

つまり

支持度が低い組み合わせは それ以上調べる必要がない

ということです。

この仕組みによって

探索する組み合わせを大幅に減らす

ことができます。

どんな場面で使う?

Aprioriは主に

マーケットバスケット分析

で使われます。

ECサイトのレコメンド

スーパーの購買分析

商品の棚配置

セット販売

例えば

ビール → おつまみ

というルールが見つかれば

ビールを買った人に おつまみをおすすめ

といったレコメンドが可能になります。

DS検定では

アソシエーション分析 ↓ Apriori

という流れで出題されることが多いです。

よくある誤解・混同

誤解①

Aprioriは機械学習モデルである

これは誤りです。

Aprioriは

予測モデルではなく「パターン発見アルゴリズム」

です。

分類や回帰のように

未来を予測する

ものではありません。

誤解②

信頼度だけでルールを評価する

これも誤りです。

信頼度は

条件付き確率

なので

Yが元々よく起きる場合

高くなりやすいです。

そのため

リフト値

とセットで評価します。

DS検定では

信頼度が高い → 良いルール

という選択肢が出ることがあります。

この場合

リフト値の確認が必要

という判断ができれば正解に近づきます。

誤解③

Aprioriはすべての組み合わせを調べる

これは違います。

Aprioriの特徴は

支持度が低い組み合わせは 探索しない

という 枝刈り(探索削減) にあります。

これによって

計算量を大きく減らす

ことができます。

まとめ(試験直前用)

Aprioriは アソシエーション分析の代表アルゴリズム

よく一緒に起きる商品パターンを見つける

支持度が低い組み合わせは探索しない

支持度・信頼度・リフト値とセットで理解する

DS検定では 支持度による探索削減が重要ポイント

対応スキル項目(データサイエンス力シート)

データ分析基礎

データの関係性理解

★ データ間の関係性を分析する基本的な手法を理解している

🔗 関連記事


🏠 DS検定トップに戻る