ds visualization
DS検定トップ
> 箱ひげ図とは?四分位数と外れ値の読み取り方【DS検定】
まず結論
- 箱ひげ図とは、データの「ばらつき」と「外れ値」を四分位数で表現する可視化手法です。
- DS検定では「平均ではなく分布の形を読む力」が問われます。
直感的な説明
例えば、ある店舗の1日の売上を比べるとき、
- 平均売上だけでは実態が見えない
- ばらつきが大きいのか小さいのかも重要
という場面があります。
箱ひげ図は、
- 真ん中の値(中央値)
- どれくらい散らばっているか
- 極端に大きい値や小さい値があるか
を一目で見せてくれるグラフです。
ビジネスでは
「安定している店舗か?」「一部の日だけ突出しているのか?」
といった判断に役立ちます。
定義・仕組み
箱ひげ図は、次の5つの値で構成されます。
- 最小値
- 第一四分位数(Q1)
- 第二四分位数(Q2:中央値)
- 第三四分位数(Q3)
- 最大値
四分位数とは?
データを小さい順に並べて、4等分したときの区切りの値です。
- Q1:下から25%の位置
- Q2:真ん中(中央値)
- Q3:下から75%の位置
四分位範囲(IQR)
IQR = Q3 − Q1
データの真ん中50%がどれくらい広がっているかを示します。
外れ値の決め方(重要)
DS検定でよく問われるのがここです。
外れ値は、次の範囲を超えた値です。
- 上限:Q3 + 1.5 × IQR
- 下限:Q1 − 1.5 × IQR
この範囲から外れたデータを「外れ値」とします。
DS検定では
「最大値=ひげの端」とは限らない
という点が重要です。
どんな場面で使う?
使う場面
- グループ間のばらつきを比較したいとき
- 外れ値の有無を確認したいとき
- 分布の偏りをざっくり把握したいとき
例:
- 部署別の売上分布比較
- 商品ごとの価格ばらつき
- センサー値の異常検知前の確認
向いていない場面
- 正確な平均値を知りたいとき
- 分布の細かい形(山の数など)を見たいとき
よくある誤解・混同
❌ 平均を表すグラフである
→ 箱ひげ図は中央値が中心です。
❌ 最大値・最小値が必ずひげの端
→ 外れ値がある場合、ひげは
「Q3+1.5×IQR以内の最大値」までです。
❌ 外れ値=異常値
→ 外れ値は「統計的に離れている値」であって、
必ずしも間違いとは限りません。
DS検定では
「外れ値はQ3+1.5×IQRを超えた値」と書かれていれば正解
「最大値を外れ値とする」と書かれていたら誤り
という判断が必要です。
❌ 箱ひげ図の中心は平均
→ 中央値(Q2)です
まとめ(試験直前用)
- 箱ひげ図は「分布のばらつき」を見るグラフ
- 中心は平均ではなく中央値
- IQR=Q3−Q1
- 外れ値は Q3+1.5×IQR を超える値
- ひげ=最大値とは限らない
「四分位数」「IQR」「外れ値の定義」
この3点を押さえれば、選択肢は切れます。
対応スキル項目(データサイエンス力シート)
- データ理解
- データの可視化
- ★ データの分布やばらつきを適切に把握できる
🔗 関連記事
- BIツール操作チートシート|スライス・ダイス・ドリルダウンの違い【DS検定】
- グラフの種類と使い分け(可視化の基本)【DS検定】
- データキューブとは?OLAP分析の基本概念を理解する【DS検定】
- データを読む・説明する・扱うとは?データリテラシー実践ガイド【DS検定】
- テンドログラム(階層クラスタリングの樹形図)とは?【DS検定】