ds modeling
DS検定トップ
> 階層クラスター分析とは?手法の違いまで整理【DS検定】
まず結論
- 階層クラスター分析とは、データを段階的にまとめたり分割したりして「似ているグループ」を作る手法です。
- DS検定では「どの基準でクラスタを結合するか」を判断できるかが問われます。
直感的な説明
たとえば、顧客を「なんとなく似ている人同士」でまとめたいとします。
最初は全員バラバラですが、
- まず一番似ている2人をまとめる
- 次に、そのグループと別の人をまとめる
- さらに大きなグループにしていく
このように、少しずつグループを作っていくのが階層クラスター分析です。
ポイントは
「どの2つをくっつけるか?」を決めるルールが複数あることです。
DS検定では、
👉 手法の名前と“結合基準”を正しく対応させられるか
がよく問われます。
定義・仕組み
階層クラスター分析には大きく2種類あります。
① 凝集型(ボトムアップ型)
- 小さなクラスタから始めて
- だんだん大きくしていく方法
DS検定では基本的にこちらが問われます。
結合基準(リンケージ)の違い
クラスタ同士を結合する基準には代表的に次があります。
-
最短距離法(単連結法)
→ 2つのクラスタの中で「最も近い2点」の距離で判断 -
最長距離法(完全連結法)
→ 「最も遠い2点」の距離で判断 -
重心法
→ クラスタの中心同士の距離で判断 -
ウォード法
→ クラスタを結合したときに増える「ばらつき(分散)」を最小にする
ウォード法の本質
ウォード法は
「クラスタ内のばらつきの増加を最小にする」
方法です。
言い換えると、
- クラスタ内をできるだけ均質に保つ
- ばらつきが急に大きくならないようにする
という考え方です。
DS検定では
「変動の増加を最小にする」
という表現が出たらウォード法です。
どんな場面で使う?
使う場面
- 顧客セグメントの可視化
- 商品分類
- アンケートの傾向分析
- 遺伝子データの分類
特に
「何個に分けるか決めていない」場合に有効です。
デンドログラム(樹形図)で どこで切るかを後から決められるのが特徴です。
注意すべき場面
- データ数が非常に多い場合(計算コストが高い)
- 事前にクラスタ数を決めたい場合(→ k-meansの方が適切)
よくある誤解・混同
① k-meansとの違い
DS検定ではよく混同させてきます。
| 階層クラスター分析 | k-means |
|---|---|
| 段階的に結合 | 最初にクラスタ数を決める |
| デンドログラムあり | なし |
| 結合基準が複数 | 平均距離ベース |
👉 「クラスタ数を事前に決める」と書いてあったら
階層クラスターではありません。
② 各リンケージの混同
DS検定での典型的なひっかけ:
- 「最も近い距離で結合」→ 最短距離法
- 「最も遠い距離で結合」→ 最長距離法
- 「重心間距離」→ 重心法
- 「変動(分散)の増加を最小」→ ウォード法
この対応を正確に切り分けられることが重要です。
まとめ(試験直前用)
- 階層クラスター分析は段階的にグループを作る手法
- 凝集型が基本(小→大)
- ウォード法=ばらつきの増加を最小
- クラスタ数を最初に決めるのは k-means
- 「結合基準」と「手法名」を対応させて覚える
対応スキル項目(データサイエンス力シート)
- データ分析
- クラスタリング
- ★ クラスタリング手法の特徴を理解している
🔗 関連記事
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】
- 共起頻度・支持度・信頼度・リフト値の違いとは?【DS検定】