k-means と階層型クラスタリングの違い【G検定頻出比較】 | AI・データサイエンス・IT学習ノート

gk unsupervised_learning clustering

G検定トップ＞ k-means と階層型クラスタリングの違い【G検定頻出比較】

まず結論

k-meansは「クラスタ数を事前に決めて高速に分割する手法」、
階層型クラスタリングは「クラスタ数を決めずに階層構造を作る手法」である。
G検定では「クラスタ数の扱い」「デンドログラムの有無」「計算量の違い」が狙われる。

直感的な説明

k-means

「最初にグループ数を決めて、強制的に分ける」
仕切りのある箱にデータを振り分けるイメージ

階層型クラスタリング

「似ているもの同士が自然に集まっていく過程を見る」
友達関係がだんだん大きなグループになるイメージ

👉

早く・大量に処理 → k-means
構造を理解したい → 階層型

定義・仕組み

k-means

クラスタ数 k を事前に指定
各クラスタの中心（重心）を計算
データを最も近い重心に割り当て
重心を更新 → 収束するまで繰り返す

階層型クラスタリング

クラスタ数を事前に決めない
データ間の距離に基づいて段階的に結合・分割
結果を デンドログラム で表現可能

※ 代表的なのは 凝集型（ボトムアップ）

いつ使う？（得意・不得意）

k-means が得意

データ数が多い
高速処理が必要
クラスタ数が明確に決まっている

k-means が苦手

クラスタ数が分からない
非球状クラスタ
初期値依存が気になる場合

階層型クラスタリングが得意

クラスタ数が不明
データの関係性・構造を理解したい
可視化したい

階層型クラスタリングが苦手

データ数が多い
計算コストが高い
高速処理が必要な場合

G検定ひっかけポイント

❌「k-meansはクラスタ数を自動で決める」
❌「階層型クラスタリングは次元削減手法」
❌「デンドログラムはクラスタリング手法」
✅「k-meansは k を事前指定」
✅「階層型はクラスタ数を後から決められる」
✅「デンドログラムは階層型の可視化結果」

判断基準

「k を先に決める？」→ k-means
「ツリー構造で関係を見る？」→ 階層型
「大量データ・高速？」→ k-means

まとめ（試験直前用）

k-means：高速・k事前指定・大量データ向き
階層型：構造理解・k不要・デンドログラムあり
デンドログラム＝階層型の結果表示
次元削減とは無関係
kの扱いが最大の見分けポイント

🔗 関連記事

🏠 G検トップに戻る