Skip to the content.

G検定トップ > 学習データ・検証データ・テストデータの役割とは?【使い分け完全整理|G検定対策】

まず結論

  • 学習データはモデルを学習させるためのデータ。
  • 検証データはモデルやハイパーパラメータを調整するためのデータ。
  • テストデータは最終的な性能評価のためだけに使うデータ。
  • G検定では「どのデータをいつ使うか」が問われる。

直感的な説明

テスト勉強に例えると👇

  • 学習データ:
    👉 問題集で解き方を覚える
  • 検証データ:
    👉 模試で勉強法を調整する
  • テストデータ:
    👉 本番試験(成績を見るだけ)

👉 テストデータは「答え合わせ専用」

定義・仕組み

学習データ(Training Data)

  • モデルの重み・パラメータを更新するために使用
  • 勾配降下法で直接使われる

👉 唯一「学習」に使うデータ


検証データ(Validation Data)

  • 学習途中でモデルの性能を確認
  • ハイパーパラメータ調整に使用
    • 学習率
    • 層の数
    • 正則化係数 など

👉 モデル選択のためのデータ


テストデータ(Test Data)

  • 学習・調整が終わったあとに使用
  • 最終性能の評価のみ

👉 絶対に学習・調整に使わない

いつ使う?(得意・不得意)

学習データ

  • 得意:モデルを賢くする
  • 不得意:性能評価には使えない

検証データ

  • 得意:過学習の検出・調整
  • 不得意:最終評価には不向き

テストデータ

  • 得意:汎化性能の評価
  • 不得意:学習に使うと不正

G検定ひっかけポイント

ここが頻出 👇

❌ テストデータでモデルを調整する

  • 誤り
  • テストデータは評価専用

❌ 検証データで重みを更新する

  • 誤り
  • 重み更新は学習データのみ

⭕ 正しい関係

  • 重み更新 → 学習データ
  • モデル選択 → 検証データ
  • 最終評価 → テストデータ

データリーケージとの関係

  • テスト・検証データの情報が学習に入る → データリーケージ
  • 評価が信用できなくなる

まとめ(試験直前用)

  • 学習:重みを更新
  • 検証:調整・選択
  • テスト:評価のみ
  • テストは最後まで触らない
  • 混ざったらリーケージ

🔗 関連記事


🏠 G検トップに戻る