gk unsupervised_learning
G検定トップ
> UMAP(Uniform Manifold Approximation and Projection)とは?G検定対策
まず結論
- UMAPとは、高次元データの局所構造を重視しつつ、大域構造もある程度保ちながら低次元に可視化する教師なし次元削減手法。
- G検定ではt-SNEとの違い(大域構造・計算効率・再現性)が問われやすい。
直感的な説明
- t-SNEは「近所の関係」をとても丁寧に描く地図ですが、街全体の位置関係は歪みがちです。
-
UMAPは、
- 近所同士はしっかり近く
- 離れている集団は大きく離れる ように配置しようとします。
- 👉 “近所も全体も、バランスよく見せる地図”がUMAPです。
定義・仕組み
-
UMAPは、
- データが低次元多様体上に分布しているという仮定のもと
- 近傍グラフを構築し
- その構造を低次元空間で近似する 次元削減手法です。
-
特徴:
- 教師なし学習
- 局所構造を重視
- 大域構造も比較的保つ
- 計算が高速
いつ使う?(得意・不得意)
使われる場面(得意)
- 大規模データの可視化
- クラスタ構造の把握
- t-SNEより高速・安定な可視化が必要な場合
注意点・不得意
- 分類・予測アルゴリズムではない
- パラメータ設定で見え方が変わる
- 軸の意味は解釈できない
G検定ひっかけポイント
-
よくある誤り表現:
- ❌ 「クラス分類アルゴリズムである」
- ❌ 「教師あり学習である」
-
t-SNEとの違い:
- t-SNE:局所構造特化、大域構造は弱い
- UMAP:局所+大域のバランス
-
判断基準:
- 高速・大規模・大域も意識 → UMAP
- 局所を最優先 → t-SNE
まとめ(試験直前用)
- UMAP=局所+大域を両立する可視化
- 教師なし次元削減
- t-SNEより高速・安定
- 分類ではない
- 「バランス型」と覚える
🔗 関連記事
- PCAとSVDの関係とは?(数式なしで理解)【G検定対策】
- クラスタリングと次元削減の違い【最終混同対策・G検定】
- デンドログラムとは?(階層型クラスタリングの可視化)【G検定対策】
- 階層型クラスタリングとは?(凝集型・分割型)【G検定対策】
- k-means と階層型クラスタリングの違い【G検定頻出比較】
🏠 G検トップに戻る