ds data-understanding statistics
まず結論
統計とは「データのばらつき」と「データ同士の関係」を理解するための考え方です。
DS検定では特に次の流れを理解しているかが問われます。
データの代表値(平均など)
データのばらつき(分散・標準偏差)
データ同士の関係(共分散・相関係数)
予測モデルの説明力(決定係数)
DS検定では、これらの用語の意味の違いを理解して選択肢を切れるかが重要になります。
直感的な説明
統計は大きく分けて 2つのことを知るための道具です。
① データはどんな値の集まりか
例えば、ある会社の社員の年齢データがあったとします。
25, 27, 29, 30, 31
ここで知りたいのは次のようなことです。
だいたい何歳くらいなのか
年齢のばらつきは大きいのか
このとき使うのが
平均
分散
標準偏差
です。
② データ同士に関係はあるか
例えば次のようなデータです。
気温 アイス売上
20℃ 100 25℃ 150 30℃ 200
ここでは
気温が上がると売上も増える
という関係があります。
この関係を調べるときに使うのが
共分散
相関係数
です。
さらに、
その関係でどれくらい予測できるか
を見る指標が
決定係数
です。
定義・仕組み
DS検定では統計の指標を 役割ごとに整理して理解することが重要です。
① データの中心を表す指標
代表値(中心を表す)
平均(Mean)
中央値(Median)
最頻値(Mode)
DS検定では
平均は外れ値の影響を受けやすい
というポイントがよく問われます。
② データのばらつきを表す指標
ばらつき(散らばり)
分散
標準偏差
直感的には
分散 → ばらつきの大きさ
標準偏差 → 分散を元の単位に戻したもの
と理解しておくと十分です。
③ 2つのデータの関係
2変数の関係
共分散
相関係数
共分散は
2つのデータが一緒に増えるか減るか
を見る指標です。
しかし共分散には
単位の影響を受ける
という問題があります。
そこで登場するのが
相関係数です。
相関係数は
−1 ~ 1 の範囲
関係の強さを表す
という特徴があります。
④ 回帰と説明力
データの関係を使って
予測モデル
を作ることを 回帰分析といいます。
そのモデルが
どれくらいデータを説明できているか
を表す指標が
決定係数(R²)
です。
DS検定では
相関係数 r
決定係数 R²
の関係もよく問われます。
単回帰では
決定係数 = 相関係数²
という関係になります。
どんな場面で使う?
統計の指標はデータ分析の基本です。
データの特徴を知る
例
売上データの平均
顧客年齢のばらつき
ここでは
平均
分散
標準偏差
を使います。
データ同士の関係を調べる
例
広告費と売上
気温と電力消費
ここでは
共分散
相関係数
を使います。
予測モデルを評価する
例
売上予測モデル
需要予測
ここでは
回帰分析
決定係数
が使われます。
よくある誤解・混同
相関がある=因果関係がある
これはよくある誤解です。
DS検定でも
相関と因果の違い
はよく問われます。
有名な例
アイス売上 ↑
溺死事故 ↑
これは相関があります。
しかし原因は
気温
です。
つまり
相関 ≠ 因果
です。
相関係数0=関係なし
これも注意が必要です。
相関係数は
直線関係
しか測れません。
例えば
y = x²
のような関係では
相関係数が0に近くなることがあります。
相関係数が高い=予測できる
これも誤解です。
相関が高くても
外れ値
説明変数不足
などの理由で
予測が当たらないことがあります。
DS検定ではこのような選択肢がよく出ます。
まとめ(試験直前用)
DS検定の統計は次の流れで整理すると理解しやすくなります。
代表値 ↓ 平均・中央値 ↓ ばらつき ↓ 分散・標準偏差 ↓ 2変数の関係 ↓ 共分散・相関係数 ↓ 予測モデル ↓ 決定係数
試験では次のポイントを覚えておくと判断しやすくなります。
相関 ≠ 因果
相関係数は直線関係のみを見る
決定係数はモデルの説明力
対応スキル項目(データサイエンス力シート)
スキルカテゴリ名 データサイエンス基礎
サブカテゴリ名 統計数理基礎
★ 基本的な統計量(平均、分散、標準偏差など)を理解し、データの特徴を説明できる
★ 相関や回帰など、複数の変数間の関係性を理解し説明できる
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】