ds modeling visualization
DS検定トップ
> テンドログラム(階層クラスタリングの樹形図)とは?【DS検定】
まず結論
テンドログラムとは、階層クラスタリングの結果を「木構造」で可視化した図です。
DS検定では、「どの高さでクラスタを分けるかを判断できるか」が問われます。
直感的な説明
テンドログラムは、「どのデータ同士がどの順番でくっついたか」を表した図です。
たとえば、顧客データを似ている順にまとめていくとします。
- まず、よく似た2人がグループになる
- 次に、そのグループと別の顧客がくっつく
- 最後に、大きなグループ同士が統合される
この「くっつく過程」を、上に向かって枝が伸びる木の形で描いたものがテンドログラムです。
重要なのは、どこで“線を引くか”でクラスタ数が変わることです。
定義・仕組み
テンドログラムは、階層クラスタリング(Hierarchical Clustering)の結果を図にしたものです。
横軸(x軸)
- 個々のデータ(サンプル)を並べたもの
- 順番そのものに強い意味はありません
縦軸(y軸)
- データ同士が結合されたときの「距離」や「類似度の差」
- 上にいくほど、無理やりくっつけている(=あまり似ていない)
つまり、
- 低い位置で結合 → とても似ている
- 高い位置で結合 → あまり似ていない
という意味になります。
DS検定では、「縦軸が距離を表す」という点を理解しているかが重要です。
どんな場面で使う?
使う場面
- クラスタ数が事前に決まっていない場合
- データのまとまり方を“全体像”で見たいとき
- グループの階層構造を理解したいとき
ビジネスでは、
- 顧客セグメントの把握
- 商品の類似分類
- 遺伝子解析など
で使われます。
注意する場面
- データが多すぎると図が読みにくい
- 距離の定義(ユークリッド距離など)に依存する
「図がきれい=正しい分類」とは限らない点に注意です。
よくある誤解・混同
① 横軸に意味があると思ってしまう
選択肢では「横軸は時間の推移を表す」といった誤りが出やすいです。
→ 横軸は単なるデータの並びです。
② 縦軸を“クラスタ数”と勘違いする
縦軸はクラスタ数ではありません。
→ 結合時の距離(どれくらい離れていたか)です。
③ k-meansと混同する
DS検定では、
- k-means → 最初にクラスタ数を決める
- 階層クラスタリング → 木構造で後から決められる
という違いを問われます。
「クラスタ数を後から決められる」という表現があれば、テンドログラムを思い出してください。
まとめ(試験直前用)
- テンドログラムは階層クラスタリングの結果を木で表した図
- 縦軸は「結合時の距離」
- 横軸は単なるデータの並び
- 横線を引く高さでクラスタ数が決まる
- k-meansとの違いを問われやすい
対応スキル項目(データサイエンス力シート)
- データ理解
- データの可視化
- ★ データの特徴や構造を把握するための適切な可視化手法を選択できる
🔗 関連記事
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アノテーションとは?(AI学習データを作る重要な作業)【DS検定】
- Aprioriアルゴリズムとは?(アソシエーション分析の基本手法)【DS検定】
- アソシエーション分析とは?購買データの関係性を見つける分析【DS検定】
- 共起頻度・支持度・信頼度・リフト値の違いとは?【DS検定】