gk clustering
G検定トップ
> k-means法とk-NNの違いとは?名前ひっかけ完全対策【G検定頻出】
まず結論
- k-meansは「教師なし学習のクラスタリング」、
k-NNは「教師あり学習の分類・回帰」であり、まったく別物である。 - G検定では「学習の有無(ラベルの有無)」で即切る。
直感的な説明
名前は似ていますが、やっていることは正反対です。
- k-means
👉 正解を知らない状態で、データを自動でグループ分け - k-NN
👉 正解を知っていて、近いデータの多数決で予測
つまり、
k-means:分ける
k-NN:当てる
という違いです。
定義・仕組み
k-means法
- 教師なし学習
- クラスタリング手法
- データをK個のクラスタに分割
- 「平均(mean)」を使って中心を更新
ポイント:
- 正解ラベルは使わない
- 非階層的クラスタリング
- Kは「クラスタ数」
k-NN(k-Nearest Neighbors)
- 教師あり学習
- 分類・回帰手法
- 近傍k個のデータから予測
- 多数決(分類)や平均(回帰)
ポイント:
- 正解ラベルが必要
- 学習というより「記憶型」
- kは「近傍の数」
いつ使う?(得意・不得意)
k-meansが向く場面
- データの自動グループ分け
- 顧客セグメンテーション
- 前処理としてのクラスタリング
k-NNが向く場面
- 単純な分類・回帰
- 学習データが少ない場合
- モデルを作らずに予測したい場合
G検定ひっかけポイント
ここが試験で一番狙われます。
よくある誤解
- ❌「kが付いているから同じ系統」
- ❌「k-meansは分類問題」
- ❌「k-NNは教師なし」
正しい判断基準(超重要)
- ラベルを使わない → k-means
- ラベルを使う → k-NN
- クラスタリング → k-means
- 分類・回帰 → k-NN
問題文に
「教師なし」「クラスタリング」
とあれば k-means。
「近傍」「多数決」「分類」
とあれば k-NN。
最終比較表(これだけ見ればOK)
| 項目 | k-means | k-NN | |—|—|—| | 学習形態 | 教師なし | 教師あり | | タスク | クラスタリング | 分類・回帰 | | 正解ラベル | 不要 | 必要 | | kの意味 | クラスタ数 | 近傍数 | | 代表的用途 | グループ分け | 予測 |
まとめ(試験直前用)
- k-means:教師なし・分ける
- k-NN:教師あり・当てる
- kの意味が違う
- 名前に惑わされない
- 「ラベルある?」で即判断
🔗 関連記事
- デンドログラムとは?(階層型クラスタリングの可視化)【G検定対策】
- 階層型クラスタリングとは?(凝集型・分割型)【G検定対策】
- k-means法とは?教師なし学習とクラスタリングの基本【G検定対策】
- k-means と階層型クラスタリングの違い【G検定頻出比較】
🏠 G検トップに戻る