gk unsupervised_learning clustering
G検定トップ
> k-means と階層型クラスタリングの違い【G検定頻出比較】
まず結論
- k-meansは「クラスタ数を事前に決めて高速に分割する手法」、
階層型クラスタリングは「クラスタ数を決めずに階層構造を作る手法」である。 - G検定では「クラスタ数の扱い」「デンドログラムの有無」「計算量の違い」が狙われる。
直感的な説明
k-means
- 「最初にグループ数を決めて、強制的に分ける」
- 仕切りのある箱にデータを振り分けるイメージ
階層型クラスタリング
- 「似ているもの同士が自然に集まっていく過程を見る」
- 友達関係がだんだん大きなグループになるイメージ
👉
- 早く・大量に処理 → k-means
- 構造を理解したい → 階層型
定義・仕組み
k-means
- クラスタ数 k を事前に指定
- 各クラスタの中心(重心)を計算
- データを最も近い重心に割り当て
- 重心を更新 → 収束するまで繰り返す
階層型クラスタリング
- クラスタ数を事前に決めない
- データ間の距離に基づいて段階的に結合・分割
- 結果を デンドログラム で表現可能
※ 代表的なのは 凝集型(ボトムアップ)
いつ使う?(得意・不得意)
k-means が得意
- データ数が多い
- 高速処理が必要
- クラスタ数が明確に決まっている
k-means が苦手
- クラスタ数が分からない
- 非球状クラスタ
- 初期値依存が気になる場合
階層型クラスタリングが得意
- クラスタ数が不明
- データの関係性・構造を理解したい
- 可視化したい
階層型クラスタリングが苦手
- データ数が多い
- 計算コストが高い
- 高速処理が必要な場合
G検定ひっかけポイント
- ❌「k-meansはクラスタ数を自動で決める」
- ❌「階層型クラスタリングは次元削減手法」
-
❌「デンドログラムはクラスタリング手法」
- ✅「k-meansは k を事前指定」
- ✅「階層型はクラスタ数を後から決められる」
- ✅「デンドログラムは階層型の可視化結果」
判断基準
- 「k を先に決める?」→ k-means
- 「ツリー構造で関係を見る?」→ 階層型
- 「大量データ・高速?」→ k-means
まとめ(試験直前用)
- k-means:高速・k事前指定・大量データ向き
- 階層型:構造理解・k不要・デンドログラムあり
- デンドログラム=階層型の結果表示
- 次元削減とは無関係
- kの扱いが最大の見分けポイント
🔗 関連記事
- PCAとSVDの関係とは?(数式なしで理解)【G検定対策】
- クラスタリングと次元削減の違い【最終混同対策・G検定】
- デンドログラムとは?(階層型クラスタリングの可視化)【G検定対策】
- 階層型クラスタリングとは?(凝集型・分割型)【G検定対策】
- k-means法とk-NNの違いとは?名前ひっかけ完全対策【G検定頻出】
🏠 G検トップに戻る