gk machine_learning evaluation
G検定トップ
> 交差検証(Cross Validation)とは?【k分割の考え方|G検定対策】
まず結論
- 交差検証(Cross Validation)とは、データを複数に分割して、学習と検証を入れ替えながら性能を評価する手法である。
- G検定では「検証データの使い方」と「テストデータとの違い」が問われる。
直感的な説明
交差検証は、
模試を何パターンも受けて、平均点で実力を判断する方法です。
- 1回の模試だけだと運に左右される
- 何回も受ければ、実力が分かる
👉 評価のブレを小さくするのが目的。
定義・仕組み
k分割交差検証(k-fold Cross Validation)
- データを k 個に分割
- そのうち 1つを検証用にする
- 残りを学習用にする
- これを k 回繰り返す
- 検証結果を平均する
👉 すべてのデータが一度は検証に使われる
いつ使う?(得意・不得意)
得意なケース
- データ数が少ない
- 評価の信頼性を高めたい
- モデル比較をしたい
不得意・注意点
- 計算コストが高い
- 大規模データでは非効率
- 時系列データにはそのまま使えない
G検定ひっかけポイント
ここが超重要 👇
❌ テストデータで交差検証を行う
- 誤り
- 交差検証は「学習+検証」の枠内で行う
❌ 検証データを何度も使うのはデータリーケージ
- 誤り
- 交差検証では「意図的に」入れ替えて使うため問題なし
⭕ 正しい理解
- 交差検証=検証の安定化
- テストデータ=最後の1回だけ使用
学習・検証・テストの関係
- 学習:重み更新
- 検証:評価(交差検証を含む)
- テスト:最終評価のみ
まとめ(試験直前用)
- 交差検証=評価を安定させる手法
- k分割が代表例
- 検証データを入れ替えて使う
- テストデータは使わない
- 時系列では注意
🔗 関連記事
- A/Bテストとは?データで施策を比較する方法【DS検定】
- マクロ平均・マイクロ平均・重み付き平均の違いとは?【DS検定】
- バイアス・バリアンスのトレードオフとは?過学習との関係【DS検定】
- 決定係数と寄与率とは?回帰モデルの説明力を理解する【DS検定】
- 分類モデルの評価指標の比較とは?【DS検定リテラシー】
🏠 G検トップに戻る