ds modeling
DS検定トップ
> 階層クラスター分析における距離の測定方法の比較【DS検定】
まず結論
- 階層クラスター分析では「何をどの基準で近いと判断するか(距離の定義)」によって結果が変わる。
- DS検定では「距離の種類」と「クラスタ間距離の計算方法」を区別できるかが問われる。
👉 試験では
「ユークリッド距離か?」「マンハッタン距離か?」
「最短距離法か?ウォード法か?」
この“レイヤーの違い”を混同させてきます。
直感的な説明
階層クラスター分析は
「似ているものから順にくっつけていく」方法です。
でもここで問題になります。
何をもって“似ている”とするのか?
たとえば:
- 直線距離で近い → ユークリッド距離
- 縦横の合計距離で近い → マンハッタン距離
- ばらつきが小さくなるようにまとめる → ウォード法
つまり、
「距離の測り方」=クラスターの形を決めるルール
これが違えば、
最終的なグループ分けも変わります。
定義・仕組み
階層クラスター分析での距離は、大きく2段階あります。
① データ同士の距離(点と点)
■ ユークリッド距離
もっとも基本的な距離。
\[d = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}\]意味:
「直線距離」
特徴:
- 外れ値の影響を受けやすい
- 球状のクラスタを作りやすい
■ マンハッタン距離
\[d = |x_1 - x_2| + |y_1 - y_2|\]意味: 「縦横の移動距離の合計」
特徴:
- 外れ値の影響が比較的小さい
- グリッド状のデータに強い
■ マハラノビス距離
\[d = \sqrt{(x - \mu)^T S^{-1} (x - \mu)}\]意味:
- 分散や相関を考慮した距離
特徴:
- 変数間の相関を補正できる
- 上級的(DS検定では意味理解レベル)
② クラスター間の距離(グループとグループ)
ここが混同ポイントです。
■ 最短距離法(単連結法)
クラスタ間の最も近い点同士の距離
→ 細長いクラスタになりやすい
■ 最長距離法(完全連結法)
クラスタ間の最も遠い点同士の距離
→ コンパクトなクラスタ
■ 群平均法
全ての点の平均距離
→ バランス型
■ ウォード法
クラスタ内の分散の増加が最小になるように結合
→ もっともよく使われる
→ 球状のきれいなクラスタ
DS検定では
「ウォード法=分散最小化」
ここは重要です。
どんな場面で使う?
✔ 使う場面
- 顧客セグメント分析
- 商品の類似分類
- アンケートのグルーピング
✔ 判断ポイント
- データの分布は球状か?
- 外れ値は多いか?
- 相関を考慮すべきか?
実務と試験のズレ
実務:
- スケーリング(標準化)が必須
- 複数パターンを試して比較
試験:
- 「どの距離の特徴か」を選ばせる問題が中心
計算より「意味理解」が重要。
よくある誤解・混同
❌ 距離の種類と連結方法を混同
- ユークリッド距離=ウォード法
→ 別物です。
距離の種類:点と点
連結方法:クラスタとクラスタ
レイヤーが違います。
❌ ウォード法は距離の種類だと思う
→ 違います。
ウォード法は「結合基準」。
❌ マハラノビス距離=主成分分析
→ 違います。
相関を考慮する距離。
DS検定では
「〜距離は分散を最小化する」
と書かれていたら誤りです。
分散最小化はウォード法。
まとめ(試験直前用)
- 距離は「点同士」か「クラスタ同士」かをまず確認
- ユークリッド=直線距離
- マンハッタン=縦横合計
- ウォード法=分散増加を最小化
- 距離と連結法を混同した選択肢は切る
対応スキル項目(データサイエンス力シート)
- スキルカテゴリ:数理・統計基礎
- サブカテゴリ:多変量解析
- ★ クラスタリング手法の基本的な考え方を理解している
- ★ 距離尺度の違いが分析結果に与える影響を理解している
🔗 関連記事
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】
- 共起頻度・支持度・信頼度・リフト値の違いとは?【DS検定】