gk unsupervised_learning clustering
G検定トップ
> 階層型クラスタリングとは?(凝集型・分割型)【G検定対策】
まず結論
- 階層型クラスタリング(Hierarchical Clustering)とは、データを段階的にまとめたり分けたりして階層構造を作るクラスタリング手法であり、凝集型と分割型の2種類がある。
- G検定では「凝集型と分割型の違い」「デンドログラムとの関係」がよく問われる。
直感的な説明
階層型クラスタリングは、
「仲の良いもの同士を少しずつグループ化(または分割)」していく方法。
- 凝集型:バラバラ → だんだん合体
- 分割型:全部一緒 → だんだん分裂
結果として、
「どのデータが、どの順番で、どの距離でまとまったか」が
木構造(デンドログラム)として表現される。
定義・仕組み
階層型クラスタリングの定義
- クラスタ数を事前に固定せず
- データ間の距離(類似度)に基づいて
- 階層的なクラスタ構造を構築する手法
凝集型クラスタリング(Agglomerative)
- 各データを1クラスタとして開始
- 距離が最も近いクラスタ同士を結合
- これを繰り返して1つのクラスタにしていく
👉 ボトムアップ方式
分割型クラスタリング(Divisive)
- 全データを1つのクラスタとして開始
- 距離が遠いデータを分割
- これを繰り返して細かく分けていく
👉 トップダウン方式
※ 実務・試験ともに 凝集型が圧倒的に有名・頻出
いつ使う?(得意・不得意)
得意
- クラスタ数が事前に分からない場合
- データの階層構造を理解したい場合
- クラスタ間の関係性を可視化したい場合
不得意
- データ数が非常に多い場合(計算コストが高い)
- 明確にクラスタ数が決まっている場合
- 高速処理が求められる場合
👉 その場合は k-means などが選ばれやすい
G検定ひっかけポイント
- ❌「階層型クラスタリングは次元削減手法である」
- ❌「デンドログラム=クラスタリング手法」
-
❌「分割型が一般的に使われる」
- ✅「クラスタリング手法そのもの」
- ✅「結果を可視化したものがデンドログラム」
- ✅「実務・試験では凝集型が主流」
判断基準
- 「下からまとめる」→ 凝集型
- 「上から分ける」→ 分割型
- 「木構造の図」→ デンドログラム(手法ではない)
まとめ(試験直前用)
- 階層型クラスタリング=段階的にまとめる/分ける手法
- 種類は 凝集型(主流) と 分割型
- 凝集型:ボトムアップ、分割型:トップダウン
- デンドログラムは結果の可視化
- 次元削減とは無関係
🔗 関連記事
- PCAとSVDの関係とは?(数式なしで理解)【G検定対策】
- クラスタリングと次元削減の違い【最終混同対策・G検定】
- デンドログラムとは?(階層型クラスタリングの可視化)【G検定対策】
- k-means法とk-NNの違いとは?名前ひっかけ完全対策【G検定頻出】
- k-means法とは?教師なし学習とクラスタリングの基本【G検定対策】
🏠 G検トップに戻る