Skip to the content.

DS検定トップ > 箱ひげ図とは?四分位数と外れ値の読み取り方【DS検定】

まず結論

  • 箱ひげ図とは、データの「ばらつき」と「外れ値」を四分位数で表現する可視化手法です。
  • DS検定では「平均ではなく分布の形を読む力」が問われます。

直感的な説明

例えば、ある店舗の1日の売上を比べるとき、

  • 平均売上だけでは実態が見えない
  • ばらつきが大きいのか小さいのかも重要

という場面があります。

箱ひげ図は、

  • 真ん中の値(中央値)
  • どれくらい散らばっているか
  • 極端に大きい値や小さい値があるか

を一目で見せてくれるグラフです。

ビジネスでは
「安定している店舗か?」「一部の日だけ突出しているのか?」
といった判断に役立ちます。

定義・仕組み

箱ひげ図は、次の5つの値で構成されます。

  1. 最小値
  2. 第一四分位数(Q1)
  3. 第二四分位数(Q2:中央値)
  4. 第三四分位数(Q3)
  5. 最大値

四分位数とは?

データを小さい順に並べて、4等分したときの区切りの値です。

  • Q1:下から25%の位置
  • Q2:真ん中(中央値)
  • Q3:下から75%の位置

四分位範囲(IQR)

IQR = Q3 − Q1

データの真ん中50%がどれくらい広がっているかを示します。

外れ値の決め方(重要)

DS検定でよく問われるのがここです。

外れ値は、次の範囲を超えた値です。

  • 上限:Q3 + 1.5 × IQR
  • 下限:Q1 − 1.5 × IQR

この範囲から外れたデータを「外れ値」とします。

DS検定では
「最大値=ひげの端」とは限らない
という点が重要です。

どんな場面で使う?

使う場面

  • グループ間のばらつきを比較したいとき
  • 外れ値の有無を確認したいとき
  • 分布の偏りをざっくり把握したいとき

例:

  • 部署別の売上分布比較
  • 商品ごとの価格ばらつき
  • センサー値の異常検知前の確認

向いていない場面

  • 正確な平均値を知りたいとき
  • 分布の細かい形(山の数など)を見たいとき

よくある誤解・混同

❌ 平均を表すグラフである

→ 箱ひげ図は中央値が中心です。

❌ 最大値・最小値が必ずひげの端

→ 外れ値がある場合、ひげは
 「Q3+1.5×IQR以内の最大値」までです。

❌ 外れ値=異常値

→ 外れ値は「統計的に離れている値」であって、
 必ずしも間違いとは限りません。

DS検定では
「外れ値はQ3+1.5×IQRを超えた値」と書かれていれば正解
「最大値を外れ値とする」と書かれていたら誤り
という判断が必要です。

❌ 箱ひげ図の中心は平均

→ 中央値(Q2)です

まとめ(試験直前用)

  • 箱ひげ図は「分布のばらつき」を見るグラフ
  • 中心は平均ではなく中央値
  • IQR=Q3−Q1
  • 外れ値は Q3+1.5×IQR を超える値
  • ひげ=最大値とは限らない

「四分位数」「IQR」「外れ値の定義」
この3点を押さえれば、選択肢は切れます。

対応スキル項目(データサイエンス力シート)

  • データ理解
  • データの可視化
  • ★ データの分布やばらつきを適切に把握できる

🔗 関連記事


🏠 DS検定トップに戻る