gk machine_learning evaluation
G検定トップ
> 時系列データの交差検証はなぜNG?【未来情報とデータリーケージ|G検定対策】
まず結論
- 時系列データでは通常の交差検証(k分割CV)は使えない。
- 理由は、未来の情報が学習に混入する(データリーケージ)から。
- G検定では「時間の順序を壊していないか」が判断基準。
直感的な説明
時系列データは、
過去 → 現在 → 未来
という「順番」に意味があります。
通常の交差検証は👇
- データをランダムに分割
- 学習と検証を入れ替える
👉 これを時系列でやると
未来を見てから過去を予測する
という不正な状況が起きます。
定義・仕組み
通常の交差検証(k-fold CV)
- データの順序を考慮しない
- ランダムに分割
- すべてのデータが検証に使われる
👉 時系列には不向き
なぜ時系列ではNGか
- 検証データに含まれる未来の情報が
- 学習データ側に入ってしまう
- 結果として 評価が過剰に良くなる
👉 典型的なデータリーケージ
いつ使う?(得意・不得意)
通常CVが使える
- 画像データ
- テキスト分類
- データの順序に意味がない場合
通常CVが使えない
- 時系列データ
- 株価
- 売上
- センサーデータ
- ログデータ
G検定ひっかけポイント
ここが頻出 👇
❌ 時系列でもデータが多ければCV可能
- 誤り
- データ量の問題ではない
❌ 時系列CVは精度が高くなるので良い
- 誤り
- 高くなるのは 評価が壊れているだけ
⭕ 正しい判断
- 時間の流れを壊す → NG
- 未来情報が混入 → データリーケージ
正しい代替手法
時系列交差検証(Time Series Split)
- 過去データで学習
- 未来データで検証
- 時間順を必ず守る
例:
- 学習:1〜100日
- 検証:101〜120日
👉 未来を一切見ない
まとめ(試験直前用)
- 通常CVは時系列ではNG
- 理由は未来情報の混入
- 時系列=順序が命
- 評価が良く見えたら疑う
- 「未来を見ていないか?」が判断軸
🔗 関連記事
- A/Bテストとは?データで施策を比較する方法【DS検定】
- マクロ平均・マイクロ平均・重み付き平均の違いとは?【DS検定】
- バイアス・バリアンスのトレードオフとは?過学習との関係【DS検定】
- 決定係数と寄与率とは?回帰モデルの説明力を理解する【DS検定】
- 分類モデルの評価指標の比較とは?【DS検定リテラシー】
🏠 G検トップに戻る