Skip to the content.

G検定トップ > 時系列データの交差検証はなぜNG?【未来情報とデータリーケージ|G検定対策】

まず結論

  • 時系列データでは通常の交差検証(k分割CV)は使えない。
  • 理由は、未来の情報が学習に混入する(データリーケージ)から
  • G検定では「時間の順序を壊していないか」が判断基準。

直感的な説明

時系列データは、
過去 → 現在 → 未来
という「順番」に意味があります。

通常の交差検証は👇

  • データをランダムに分割
  • 学習と検証を入れ替える

👉 これを時系列でやると
未来を見てから過去を予測する
という不正な状況が起きます。

定義・仕組み

通常の交差検証(k-fold CV)

  • データの順序を考慮しない
  • ランダムに分割
  • すべてのデータが検証に使われる

👉 時系列には不向き


なぜ時系列ではNGか

  • 検証データに含まれる未来の情報が
  • 学習データ側に入ってしまう
  • 結果として 評価が過剰に良くなる

👉 典型的なデータリーケージ

いつ使う?(得意・不得意)

通常CVが使える

  • 画像データ
  • テキスト分類
  • データの順序に意味がない場合

通常CVが使えない

  • 時系列データ
    • 株価
    • 売上
    • センサーデータ
    • ログデータ

G検定ひっかけポイント

ここが頻出 👇

❌ 時系列でもデータが多ければCV可能

  • 誤り
  • データ量の問題ではない

❌ 時系列CVは精度が高くなるので良い

  • 誤り
  • 高くなるのは 評価が壊れているだけ

⭕ 正しい判断

  • 時間の流れを壊す → NG
  • 未来情報が混入 → データリーケージ

正しい代替手法

時系列交差検証(Time Series Split)

  • 過去データで学習
  • 未来データで検証
  • 時間順を必ず守る

例:

  • 学習:1〜100日
  • 検証:101〜120日

👉 未来を一切見ない

まとめ(試験直前用)

  • 通常CVは時系列ではNG
  • 理由は未来情報の混入
  • 時系列=順序が命
  • 評価が良く見えたら疑う
  • 「未来を見ていないか?」が判断軸

🔗 関連記事


🏠 G検トップに戻る