ds visualization design
EDA(探索的データ分析)とは?
まず結論
EDA(Exploratory Data Analysis:探索的データ分析)とは、
データの特徴や傾向を理解するために、可視化や基本統計量を使ってデータを探索する分析プロセスです。
DS検定では、
- 分析の前にデータを理解する
- 異常値や分布を確認する
といった 「分析前のデータ理解の重要性」を判断させる問題として登場します。
直感的な説明
例えば売上データを分析するとき、
いきなり機械学習モデルを作るのではなく、
まず次のようなことを確認します。
- 売上の分布はどうなっているか
- 異常値はあるか
- 季節変動はあるか
- どの変数が関係しそうか
そのために
- ヒストグラム
- 散布図
- 箱ひげ図
- クロス集計
などを使って データを観察します。
この
「まずデータをよく見る」
というプロセスが EDA(探索的データ分析)です。
定義・仕組み
EDAは主に次の目的で行われます。
データの分布を理解する
データがどのような形で分布しているかを確認します。
例
- ヒストグラム
- 箱ひげ図
これにより
- 偏り
- 外れ値
などを発見できます。
変数同士の関係を確認する
変数の関係を可視化します。
例
- 散布図
- 相関係数
- クロス集計
これにより
関係性のヒントを見つけます。
データ品質を確認する
EDAでは
- 欠損値
- 異常値
- 入力ミス
などの問題も確認します。
この作業は データ前処理の重要なステップです。
どんな場面で使う?
データ分析の最初のステップ
データ分析では
EDA → モデル分析
という順序で進めることが一般的です。
機械学習前のデータ理解
機械学習モデルを作る前に
- 分布
- 変数関係
- 外れ値
などを理解しておく必要があります。
ビジネスデータ分析
企業では
- 売上データ
- 顧客データ
- 行動ログ
などの分析で EDA が使われます。
よくある誤解・混同
EDA = 機械学習?
❌ EDAはモデル作成ではない
EDAは
データ理解のプロセス
です。
仮説が不要?
❌ 仮説とEDAは対立しない
実際の分析では
- 仮説思考
- EDA
を組み合わせて使います。
データが多ければEDAは不要?
❌ データ量とEDAは関係ない
むしろデータ量が多いほど
データ理解が重要になります。
DS検定のひっかけ
DS検定では
- 「機械学習の前にデータを探索する」
- 「可視化でデータの特徴を理解する」
と書かれていた場合
EDA(探索的データ分析)
と判断するのがポイントです。
まとめ(試験直前用)
EDA(探索的データ分析)は
データの特徴を理解するための分析プロセス
です。
ポイント
- 分析の最初に行う
- 分布・関係・外れ値を確認
- 可視化を多用する
DS検定では
「分析前にデータを探索するプロセス」
と書かれていたら
EDA
と判断できることが重要です。
対応スキル項目(データサイエンス力シート)
- データ理解
- データ前処理
- ★ データの分布や特徴を理解し、適切に可視化・探索できる
🔗 関連記事
- アクセス制御リスト(ACL)とは?ファイル権限の基本を整理【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アジャイル開発とは?ウォーターフォール開発との違いを整理【DS検定】
- 分析アプローチ設計とは?(分析プロジェクトを成功させる設計プロセス)【DS検定】
- 必要なデータ・分析手法・可視化を適切に選択する力とは?【DS検定】