gk unsupervised_learning
G検定トップ
> t-SNE(t-distributed Stochastic Neighbor Embedding)とは?G検定対策
まず結論
- t-SNEとは、高次元データの近いデータ同士の関係(局所構造)を保ちながら、低次元(2次元・3次元)に可視化するための教師なし次元削減手法。
- G検定では「可視化専用」「分類ではない」「大域構造は保証しない」点が問われる。
直感的な説明
-
クラス写真を並べるとき、
- 仲の良い友達同士は近く
- あまり関係ない人は遠く なるように配置したい、というイメージです。
-
t-SNEは、
- 近い点同士をとにかく近く保つことを最優先にして
- 平面上に点を並べます。
-
👉 「近所関係」をきれいに見せる地図を作る手法です。
定義・仕組み
-
t-SNEは、
- 高次元空間でのデータ点間の類似度を確率として表し
- 低次元空間でもその確率分布が似るように
- 配置を最適化する手法です。
-
特徴:
- 教師なし学習
- 局所構造(近傍関係)を重視
- 大域的な距離関係は保たれない
いつ使う?(得意・不得意)
使われる場面(得意)
- 高次元特徴量の可視化
- クラスタ構造の直感的把握
- モデル内部表現の確認
注意点・不得意
- クラス分類や予測には使えない
- 実行ごとに結果が変わることがある
- 軸やクラスタ間距離に意味はない
G検定ひっかけポイント
-
よくある誤り表現:
- ❌ 「クラス分類アルゴリズムである」
- ❌ 「大域的な距離関係を正確に保持する」
-
正しい理解:
- 可視化専用
- 近い点の関係を重視
-
判断基準:
- 局所構造を保つ → t-SNE
- 大域構造を保つ → MDS / PCA
まとめ(試験直前用)
- t-SNE=局所構造重視の可視化手法
- 教師なし・次元削減
- 分類や予測には使わない
- 大域的距離は信用しない
- 「近所をきれいに見せる」と覚える
🔗 関連記事
- PCAとSVDの関係とは?(数式なしで理解)【G検定対策】
- クラスタリングと次元削減の違い【最終混同対策・G検定】
- デンドログラムとは?(階層型クラスタリングの可視化)【G検定対策】
- 階層型クラスタリングとは?(凝集型・分割型)【G検定対策】
- k-means と階層型クラスタリングの違い【G検定頻出比較】
🏠 G検トップに戻る