Skip to the content.

DS検定トップ > 階層クラスター分析における距離の測定方法の比較【DS検定】

まず結論

  • 階層クラスター分析では「何をどの基準で近いと判断するか(距離の定義)」によって結果が変わる。
  • DS検定では「距離の種類」と「クラスタ間距離の計算方法」を区別できるかが問われる。

👉 試験では
「ユークリッド距離か?」「マンハッタン距離か?」
「最短距離法か?ウォード法か?」
この“レイヤーの違い”を混同させてきます。

直感的な説明

階層クラスター分析は
「似ているものから順にくっつけていく」方法です。

でもここで問題になります。

何をもって“似ている”とするのか?

たとえば:

  • 直線距離で近い → ユークリッド距離
  • 縦横の合計距離で近い → マンハッタン距離
  • ばらつきが小さくなるようにまとめる → ウォード法

つまり、
「距離の測り方」=クラスターの形を決めるルール

これが違えば、
最終的なグループ分けも変わります。

定義・仕組み

階層クラスター分析での距離は、大きく2段階あります。

① データ同士の距離(点と点)

■ ユークリッド距離

もっとも基本的な距離。

\[d = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}\]

意味:
「直線距離」

特徴:

  • 外れ値の影響を受けやすい
  • 球状のクラスタを作りやすい

■ マンハッタン距離

\[d = |x_1 - x_2| + |y_1 - y_2|\]

意味: 「縦横の移動距離の合計」

特徴:

  • 外れ値の影響が比較的小さい
  • グリッド状のデータに強い

■ マハラノビス距離

\[d = \sqrt{(x - \mu)^T S^{-1} (x - \mu)}\]

意味:

  • 分散や相関を考慮した距離

特徴:

  • 変数間の相関を補正できる
  • 上級的(DS検定では意味理解レベル)

② クラスター間の距離(グループとグループ)

ここが混同ポイントです。

■ 最短距離法(単連結法)

クラスタ間の最も近い点同士の距離

→ 細長いクラスタになりやすい

■ 最長距離法(完全連結法)

クラスタ間の最も遠い点同士の距離

→ コンパクトなクラスタ

■ 群平均法

全ての点の平均距離

→ バランス型

■ ウォード法

クラスタ内の分散の増加が最小になるように結合

→ もっともよく使われる
→ 球状のきれいなクラスタ

DS検定では
「ウォード法=分散最小化」
ここは重要です。

どんな場面で使う?

✔ 使う場面

  • 顧客セグメント分析
  • 商品の類似分類
  • アンケートのグルーピング

✔ 判断ポイント

  • データの分布は球状か?
  • 外れ値は多いか?
  • 相関を考慮すべきか?

実務と試験のズレ

実務:

  • スケーリング(標準化)が必須
  • 複数パターンを試して比較

試験:

  • 「どの距離の特徴か」を選ばせる問題が中心

計算より「意味理解」が重要。

よくある誤解・混同

❌ 距離の種類と連結方法を混同

  • ユークリッド距離=ウォード法
    → 別物です。

距離の種類:点と点
連結方法:クラスタとクラスタ

レイヤーが違います。

❌ ウォード法は距離の種類だと思う

→ 違います。
ウォード法は「結合基準」。

❌ マハラノビス距離=主成分分析

→ 違います。
相関を考慮する距離。

DS検定では
「〜距離は分散を最小化する」
と書かれていたら誤りです。

分散最小化はウォード法。

まとめ(試験直前用)

  • 距離は「点同士」か「クラスタ同士」かをまず確認
  • ユークリッド=直線距離
  • マンハッタン=縦横合計
  • ウォード法=分散増加を最小化
  • 距離と連結法を混同した選択肢は切る

対応スキル項目(データサイエンス力シート)

  • スキルカテゴリ:数理・統計基礎
  • サブカテゴリ:多変量解析
  • ★ クラスタリング手法の基本的な考え方を理解している
  • ★ 距離尺度の違いが分析結果に与える影響を理解している

🔗 関連記事


🏠 DS検定トップに戻る