ds statistics
まず結論
DS検定の統計問題は、次の流れで理解すると整理できます。
- データの中心
- データのばらつき
- データ同士の関係
- モデルの説明力
- 分布の読み取り
つまり
平均
↓
分散・標準偏差
↓
共分散・相関係数
↓
決定係数
↓
箱ひげ図・外れ値
という構造です。
DS検定では
公式よりも「何を表す指標か」を理解しているかが問われます。
① データの中心
まず最初に理解するのが
データの代表値です。
代表的なものは3つです。
- 平均(mean)
- 中央値(median)
- 最頻値(mode)
平均はよく使われますが、
外れ値の影響を受けやすい
という特徴があります。
そのためDS検定では
平均
中央値
の違いを理解しているかが問われます。
② データのばらつき
平均だけではデータの特徴は分かりません。
例えば
平均70点のクラスでも
- 全員70点付近
- 40点〜100点
では全く違います。
そこで使うのが
- 分散
- 標準偏差
です。
- 分散 → 平均からどれくらい離れているか
- 標準偏差 → 分散を元の単位に戻したもの
詳しくはこちら
③ データ同士の関係
次に重要なのが
2つのデータの関係
です。
例えば
- 気温とアイス売上
- 勉強時間とテスト点数
この関係を表すのが
- 共分散
- 相関係数
です。
相関係数の特徴
- -1〜1の範囲
- 0に近い → 関係が弱い
詳しくはこちら
④ モデルの説明力
相関が分かると
次は 予測モデルです。
回帰分析では
決定係数(R²)
が重要になります。
決定係数は
モデルがどれくらいデータを説明できるか
を表します。
例
R² = 0.8
なら、
データのばらつきの8割をモデルで説明できる
と解釈します。
詳しくはこちら
→ 決定係数とは
⑤ 分布の読み取り
最後に重要なのが、
データがどのように分布しているか
を読み取る力です。
DS検定では、
箱ひげ図
外れ値
正規分布
などがよく問われます。
特に箱ひげ図では、
中央値
四分位範囲
外れ値
を読み取れることが重要です。
詳しくはこちら
→ 箱ひげ図とは
試験直前まとめ
DS検定の統計は、
平均 → ばらつき → 関係 → 説明力 → 分布
の順に理解すると整理しやすいです。
それぞれの代表概念は次の通りです。
- 中心:平均・中央値・最頻値
- ばらつき:分散・標準偏差
- 関係:共分散・相関係数
- 説明力:決定係数
- 分布:箱ひげ図・外れ値
公式の暗記だけでなく、
その指標が何を表しているか
を言えるようにしておくと、DS検定で強くなります。
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】