統計の基本まとめ（平均・分散・相関・回帰の関係を整理）【DS検定】

DS検定トップ＞統計の基本まとめ（平均・分散・相関・回帰の関係を整理）【DS検定】

まず結論

統計とは「データのばらつき」と「データ同士の関係」を理解するための考え方です。

DS検定では特に次の流れを理解しているかが問われます。

データの代表値（平均など）

データのばらつき（分散・標準偏差）

データ同士の関係（共分散・相関係数）

予測モデルの説明力（決定係数）

DS検定では、これらの用語の意味の違いを理解して選択肢を切れるかが重要になります。

直感的な説明

統計は大きく分けて 2つのことを知るための道具です。

① データはどんな値の集まりか

例えば、ある会社の社員の年齢データがあったとします。

25, 27, 29, 30, 31

ここで知りたいのは次のようなことです。

だいたい何歳くらいなのか

年齢のばらつきは大きいのか

このとき使うのが

平均

分散

標準偏差

です。

② データ同士に関係はあるか

例えば次のようなデータです。

気温アイス売上

20℃ 100 25℃ 150 30℃ 200

ここでは

気温が上がると売上も増える

という関係があります。

この関係を調べるときに使うのが

共分散

相関係数

です。

さらに、

その関係でどれくらい予測できるか

を見る指標が

決定係数

です。

定義・仕組み

DS検定では統計の指標を役割ごとに整理して理解することが重要です。

① データの中心を表す指標

代表値（中心を表す）

平均（Mean）

中央値（Median）

最頻値（Mode）

DS検定では

平均は外れ値の影響を受けやすい

というポイントがよく問われます。

② データのばらつきを表す指標

ばらつき（散らばり）

分散

標準偏差

直感的には

分散 → ばらつきの大きさ

標準偏差 → 分散を元の単位に戻したもの

と理解しておくと十分です。

③ 2つのデータの関係

2変数の関係

共分散

相関係数

共分散は

2つのデータが一緒に増えるか減るか

を見る指標です。

しかし共分散には

単位の影響を受ける

という問題があります。

そこで登場するのが

相関係数です。

相関係数は

−1 ～ 1 の範囲

関係の強さを表す

という特徴があります。

④ 回帰と説明力

データの関係を使って

予測モデル

を作ることを回帰分析といいます。

そのモデルが

どれくらいデータを説明できているか

を表す指標が

決定係数（R²）

です。

DS検定では

相関係数 r

決定係数 R²

の関係もよく問われます。

単回帰では

決定係数 = 相関係数²

という関係になります。

どんな場面で使う？

統計の指標はデータ分析の基本です。

データの特徴を知る

例

売上データの平均

顧客年齢のばらつき

ここでは

平均

分散

標準偏差

を使います。

データ同士の関係を調べる

例

広告費と売上

気温と電力消費

ここでは

共分散

相関係数

を使います。

予測モデルを評価する

例

売上予測モデル

需要予測

ここでは

回帰分析

決定係数

が使われます。

よくある誤解・混同

相関がある＝因果関係がある

これはよくある誤解です。

DS検定でも

相関と因果の違い

はよく問われます。

有名な例

アイス売上 ↑

溺死事故 ↑

これは相関があります。

しかし原因は

気温

です。

つまり

相関 ≠ 因果

です。

相関係数0＝関係なし

これも注意が必要です。

相関係数は

直線関係

しか測れません。

例えば

y = x²

のような関係では

相関係数が0に近くなることがあります。

相関係数が高い＝予測できる

これも誤解です。

相関が高くても

外れ値

説明変数不足

などの理由で

予測が当たらないことがあります。

DS検定ではこのような選択肢がよく出ます。

データの種類と、それぞれに適したグラフや分析方法の基礎は、総務省統計局のデータ・データセットの種類で確認できます。

まとめ（試験直前用）

DS検定の統計は次の流れで整理すると理解しやすくなります。

代表値 ↓ 平均・中央値 ↓ ばらつき ↓ 分散・標準偏差 ↓ 2変数の関係 ↓ 共分散・相関係数 ↓ 予測モデル ↓ 決定係数

試験では次のポイントを覚えておくと判断しやすくなります。

相関 ≠ 因果

相関係数は直線関係のみを見る

決定係数はモデルの説明力

対応スキル項目（データサイエンス力シート）

スキルカテゴリ名データサイエンス基礎

サブカテゴリ名統計数理基礎

★ 基本的な統計量（平均、分散、標準偏差など）を理解し、データの特徴を説明できる

★ 相関や回帰など、複数の変数間の関係性を理解し説明できる

🔗 関連記事

🏠 DS検定トップに戻る