Skip to the content.

DS検定トップ > 階層クラスター分析とは?手法の違いまで整理【DS検定】

まず結論

  • 階層クラスター分析とは、データを段階的にまとめたり分割したりして「似ているグループ」を作る手法です。
  • DS検定では「どの基準でクラスタを結合するか」を判断できるかが問われます。

直感的な説明

たとえば、顧客を「なんとなく似ている人同士」でまとめたいとします。

最初は全員バラバラですが、

  • まず一番似ている2人をまとめる
  • 次に、そのグループと別の人をまとめる
  • さらに大きなグループにしていく

このように、少しずつグループを作っていくのが階層クラスター分析です。

ポイントは
「どの2つをくっつけるか?」を決めるルールが複数あることです。

DS検定では、
👉 手法の名前と“結合基準”を正しく対応させられるか
がよく問われます。

定義・仕組み

階層クラスター分析には大きく2種類あります。

① 凝集型(ボトムアップ型)

  • 小さなクラスタから始めて
  • だんだん大きくしていく方法

DS検定では基本的にこちらが問われます。

結合基準(リンケージ)の違い

クラスタ同士を結合する基準には代表的に次があります。

  • 最短距離法(単連結法)
    → 2つのクラスタの中で「最も近い2点」の距離で判断

  • 最長距離法(完全連結法)
    → 「最も遠い2点」の距離で判断

  • 重心法
    → クラスタの中心同士の距離で判断

  • ウォード法
    → クラスタを結合したときに増える「ばらつき(分散)」を最小にする

ウォード法の本質

ウォード法は

「クラスタ内のばらつきの増加を最小にする」

方法です。

言い換えると、

  • クラスタ内をできるだけ均質に保つ
  • ばらつきが急に大きくならないようにする

という考え方です。

DS検定では
「変動の増加を最小にする」
という表現が出たらウォード法です。

どんな場面で使う?

使う場面

  • 顧客セグメントの可視化
  • 商品分類
  • アンケートの傾向分析
  • 遺伝子データの分類

特に
「何個に分けるか決めていない」場合に有効です。

デンドログラム(樹形図)で どこで切るかを後から決められるのが特徴です。

注意すべき場面

  • データ数が非常に多い場合(計算コストが高い)
  • 事前にクラスタ数を決めたい場合(→ k-meansの方が適切)

よくある誤解・混同

① k-meansとの違い

DS検定ではよく混同させてきます。

階層クラスター分析 k-means
段階的に結合 最初にクラスタ数を決める
デンドログラムあり なし
結合基準が複数 平均距離ベース

👉 「クラスタ数を事前に決める」と書いてあったら
階層クラスターではありません。

② 各リンケージの混同

DS検定での典型的なひっかけ:

  • 「最も近い距離で結合」→ 最短距離法
  • 「最も遠い距離で結合」→ 最長距離法
  • 「重心間距離」→ 重心法
  • 「変動(分散)の増加を最小」→ ウォード法

この対応を正確に切り分けられることが重要です。

まとめ(試験直前用)

  • 階層クラスター分析は段階的にグループを作る手法
  • 凝集型が基本(小→大)
  • ウォード法=ばらつきの増加を最小
  • クラスタ数を最初に決めるのは k-means
  • 「結合基準」と「手法名」を対応させて覚える

対応スキル項目(データサイエンス力シート)

  • データ分析
  • クラスタリング
  • ★ クラスタリング手法の特徴を理解している

🔗 関連記事


🏠 DS検定トップに戻る