Skip to the content.

G検定トップ > ランダムフォレストとは?(バギングの代表例)【G検定対策】

まず結論

ランダムフォレスト(Random Forest)は、決定木を多数並列に学習させ、その結果を多数決や平均で統合するバギング系アンサンブル学習手法で、G検定では「ブースティングではなくバギングである」と即断できるかが問われる。

直感的な説明

ランダムフォレストは、

たくさんの「少しずつ考え方の違う決定木」に相談して、最終判断を決める

イメージです。

  • 1本の決定木:考えが偏りやすい
  • 多数の決定木:お互いのミスを補い合う

その結果、

  • 安定した予測
  • 過学習しにくいモデル

になります。

定義・仕組み

ランダムフォレストは、バギング + 特徴量のランダム化を組み合わせた手法です。

具体的には次を行います。

  1. 訓練データを重複を許してランダム抽出(ブートストラップ)
  2. 各決定木を並列に学習
  3. 各分割で使用する特徴量もランダムに選択
  4. 出力を多数決(分類)・平均(回帰)で統合

重要なのは、

  • モデルは独立・並列
  • 誤分類データを重視しない

という点です。

いつ使う?(得意・不得意)

得意なケース

  • 表形式データ(テーブルデータ)
  • 特徴量が多い問題
  • 非線形な関係を捉えたい場合

注意点

  • モデル構造が複雑で解釈しにくい
  • 学習・推論に計算資源が必要

G検定ひっかけポイント

G検定では、ブースティング系との混同を狙ってきます。

よくあるひっかけ

  • ランダムフォレストは逐次学習 → ✕
  • ランダムフォレストは誤分類データを重視 → ✕

正誤を切る判断基準

  • 並列学習? → ランダムフォレスト
  • 多数決・平均? → ランダムフォレスト
  • 誤りを次で修正? → ブースティング

まとめ(試験直前用)

  • ランダムフォレストはバギング系
  • 決定木を並列に多数作る
  • データと特徴量をランダム化
  • 分散を下げて安定化
  • G検定では「並列か逐次か」で判断

🔗 関連記事


🏠 G検トップに戻る