時系列データの交差検証はなぜNG？【未来情報とデータリーケージ｜G検定対策】 | AI・データサイエンス・IT学習ノート

gk machine_learning evaluation

G検定トップ＞時系列データの交差検証はなぜNG？【未来情報とデータリーケージ｜G検定対策】

まず結論

時系列データでは通常の交差検証（k分割CV）は使えない。
理由は、未来の情報が学習に混入する（データリーケージ）から。
G検定では「時間の順序を壊していないか」が判断基準。

直感的な説明

時系列データは、
過去 → 現在 → 未来
という「順番」に意味があります。

通常の交差検証は👇

データをランダムに分割
学習と検証を入れ替える

👉 これを時系列でやると
未来を見てから過去を予測する
という不正な状況が起きます。

定義・仕組み

通常の交差検証（k-fold CV）

データの順序を考慮しない
ランダムに分割
すべてのデータが検証に使われる

👉 時系列には不向き

なぜ時系列ではNGか

検証データに含まれる未来の情報が
学習データ側に入ってしまう
結果として 評価が過剰に良くなる

👉 典型的なデータリーケージ

いつ使う？（得意・不得意）

通常CVが使える

画像データ
テキスト分類
データの順序に意味がない場合

通常CVが使えない

時系列データ
- 株価
- 売上
- センサーデータ
- ログデータ

G検定ひっかけポイント

ここが頻出 👇

❌ 時系列でもデータが多ければCV可能

誤り
データ量の問題ではない

❌ 時系列CVは精度が高くなるので良い

誤り
高くなるのは 評価が壊れているだけ

⭕ 正しい判断

時間の流れを壊す → NG
未来情報が混入 → データリーケージ

正しい代替手法

時系列交差検証（Time Series Split）

過去データで学習
未来データで検証
時間順を必ず守る

例：

学習：1〜100日
検証：101〜120日

👉 未来を一切見ない

まとめ（試験直前用）

通常CVは時系列ではNG
理由は未来情報の混入
時系列＝順序が命
評価が良く見えたら疑う
「未来を見ていないか？」が判断軸

🔗 関連記事

🏠 G検トップに戻る