Skip to the content.

DS検定トップ > EDA(探索的データ分析)とは?分析の第一歩を理解する【DS検定】

EDA(探索的データ分析)とは?

まず結論

EDA(Exploratory Data Analysis:探索的データ分析)とは、
データの特徴や傾向を理解するために、可視化や基本統計量を使ってデータを探索する分析プロセスです。

DS検定では、

  • 分析の前にデータを理解する
  • 異常値や分布を確認する

といった 「分析前のデータ理解の重要性」を判断させる問題として登場します。

直感的な説明

例えば売上データを分析するとき、

いきなり機械学習モデルを作るのではなく、
まず次のようなことを確認します。

  • 売上の分布はどうなっているか
  • 異常値はあるか
  • 季節変動はあるか
  • どの変数が関係しそうか

そのために

  • ヒストグラム
  • 散布図
  • 箱ひげ図
  • クロス集計

などを使って データを観察します。

この

「まずデータをよく見る」

というプロセスが EDA(探索的データ分析)です。

定義・仕組み

EDAは主に次の目的で行われます。

データの分布を理解する

データがどのような形で分布しているかを確認します。

  • ヒストグラム
  • 箱ひげ図

これにより

  • 偏り
  • 外れ値

などを発見できます。

変数同士の関係を確認する

変数の関係を可視化します。

  • 散布図
  • 相関係数
  • クロス集計

これにより

関係性のヒントを見つけます。

データ品質を確認する

EDAでは

  • 欠損値
  • 異常値
  • 入力ミス

などの問題も確認します。

この作業は データ前処理の重要なステップです。

どんな場面で使う?

データ分析の最初のステップ

データ分析では

EDA → モデル分析

という順序で進めることが一般的です。

機械学習前のデータ理解

機械学習モデルを作る前に

  • 分布
  • 変数関係
  • 外れ値

などを理解しておく必要があります。

ビジネスデータ分析

企業では

  • 売上データ
  • 顧客データ
  • 行動ログ

などの分析で EDA が使われます。

よくある誤解・混同

EDA = 機械学習?

❌ EDAはモデル作成ではない

EDAは

データ理解のプロセス

です。

仮説が不要?

❌ 仮説とEDAは対立しない

実際の分析では

  • 仮説思考
  • EDA

を組み合わせて使います。

データが多ければEDAは不要?

❌ データ量とEDAは関係ない

むしろデータ量が多いほど

データ理解が重要になります。

DS検定のひっかけ

DS検定では

  • 「機械学習の前にデータを探索する」
  • 「可視化でデータの特徴を理解する」

と書かれていた場合

EDA(探索的データ分析)

と判断するのがポイントです。

まとめ(試験直前用)

EDA(探索的データ分析)は

データの特徴を理解するための分析プロセス

です。

ポイント

  • 分析の最初に行う
  • 分布・関係・外れ値を確認
  • 可視化を多用する

DS検定では

「分析前にデータを探索するプロセス」

と書かれていたら

EDA

と判断できることが重要です。

対応スキル項目(データサイエンス力シート)

  • データ理解
  • データ前処理
  • ★ データの分布や特徴を理解し、適切に可視化・探索できる

🔗 関連記事


🏠 DS検定トップに戻る