ds statistics
まず結論
四分位とは、データを小さい順に並べたときに「下から25%・50%・75%の位置」を表す値です。
DS検定では、「ばらつきをどう捉えるか」「中央値との違いを理解しているか」が問われます。
直感的な説明
テストの点数が並んでいるとき、
- 真ん中の人が「中央値」
- 下位25%の境目が「第1四分位(Q1)」
- 上位25%の境目が「第3四分位(Q3)」
というイメージです。
平均のように“全部をならす”のではなく、
「どこからが上位か」「どこまでが下位か」を区切る指標です。
定義・仕組み
四分位は次の3つです。
- 第1四分位(Q1)…下から25%の位置
- 第2四分位(Q2)…中央値(50%)
- 第3四分位(Q3)…下から75%の位置
重要なのは、
データは飛び飛びの値であり、25%ぴったりの位置が存在しないことがある
という点です。
そのため、計算方法が複数存在します。
実際の例で理解する
例1:データが奇数個(9個)の場合
データ: 5, 7, 8, 12, 15, 18, 22, 25, 30
中央値(Q2)は真ん中の
→ 15
ここから方法が分かれます。
方法A:中央値を除く
下半分:
5, 7, 8, 12
→ Q1 = 7.5
上半分:
18, 22, 25, 30
→ Q3 = 23.5
IQR = 23.5 − 7.5 = 16
方法B:中央値を含める
下半分:
5, 7, 8, 12, 15
→ Q1 = 8
上半分:
15, 18, 22, 25, 30
→ Q3 = 22
IQR = 22 − 8 = 14
同じデータでも結果が変わります。
つまり、
四分位は「考え方」は同じでも「計算方法」は一意ではない
ということです。
DS検定では、この違いを理解しているかが問われます。
どんな場面で使う?
① ばらつきを見るとき
Q3 − Q1 を
四分位範囲(IQR)といいます。
これは「真ん中50%の広がり」を表します。
外れ値の影響を受けにくいため、
実務でもよく使われます。
② 箱ひげ図の読み取り
箱ひげ図では、
- 箱の下端=Q1
- 箱の中央線=中央値
- 箱の上端=Q3
DS検定では、
「箱の長さが長い=ばらつきが大きい」
と読み取れるかが問われます。
よくある誤解・混同
① 四分位は必ず1つに決まる?
→ 誤りです。
「四分位は常に一意に決まる」とあれば不正解です。
② 四分位=平均?
→ 違います。
平均は“全体の代表値”
四分位は“位置の境界”
役割が異なります。
③ 奇数個のときの計算方法は固定?
→ これも誤りです。
中央値を含める方法と除く方法があります。
選択肢で
「必ず◯◯である」と断定していたら注意です。
まとめ(試験直前用)
- 四分位は「位置」を示す指標
- Q1・中央値・Q3でデータを4つに分ける
- 計算方法は複数ある(ここがひっかけ)
- IQRは“真ん中50%の広がり”
DS検定では、
「平均との違い」と「定義が一意でない点」が判断基準になります。
対応スキル項目(データサイエンス力シート)
- データ理解
- 統計的基礎理解
- ★ 基本的な統計量(平均・中央値・分散など)の意味を理解している
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】
- カイ二乗分布とは?(χ²分布の使いどころを整理)【DS検定】