ds data-preparation statistics
まず結論
無作為抽出法とは、母集団から「偏りなく」データを取り出すための方法です。
DS検定では「どの抽出方法かを見抜けるか」「方法の違いを切り分けられるか」が問われます。
直感的な説明
たとえば、全国の中学生の体力を調べたいとします。
- 1校ずつランダムに選ぶのか
- 地域ごとに分けてから選ぶのか
- 男女を分けてから人数を決めて選ぶのか
取り出し方が違うだけで、データの偏りや精度が変わります。
無作為抽出法は、
「どうやって公平に取り出すか」の設計ルールです。
定義・仕組み
代表的な無作為抽出法は次の4つです。
① 系統抽出法
最初の1人をランダムに選び、その後は一定間隔で抽出する方法。
例:5000人から10人おきに選ぶ。
→ 「間隔」がキーワード。
② 多段抽出法
グループを段階的に絞り込み、最終的に個人を抽出する方法。
例:都道府県 → 市区町村 → 学校 → 生徒
→ 「段階的に絞る」がポイント。
③ 集落抽出法(クラスタ抽出)
母集団をいくつかの集団に分け、選ばれた集団を丸ごと調査する方法。
例:学校をランダムに選び、その学校の全員を調査。
→ 「選んだグループは全員調査」が特徴。
④ 層別抽出法
あらかじめ母集団を層(グループ)に分け、各層から人数を決めて抽出する方法。
例:男女比6:4なら、6人と4人をそれぞれ抽出。
→ 「比率を保つ」が重要。
どんな場面で使う?
系統抽出法
名簿が整っているとき。
ただし周期性があるデータでは偏る可能性あり。
多段抽出法
全国調査など、大規模でコストを抑えたいとき。
集落抽出法
移動コストを抑えたいとき。
ただし集団内が似ていると偏りやすい。
層別抽出法
男女比・年代比などを正確に反映させたいとき。
よくある誤解・混同
層別抽出法と集落抽出法の違い
DS検定ではここを混同させてきます。
| 方法 | 何をする? |
|---|---|
| 層別抽出 | 各グループから「一部」抽出 |
| 集落抽出 | 選んだグループを「丸ごと」調査 |
選択肢で
「グループを選び、その中の全員を調査」
と書いてあれば → 集落抽出。
「男女比を保って抽出」
とあれば → 層別抽出。
多段抽出と集落抽出の違い
- 多段抽出:段階的に絞る
- 集落抽出:最後は丸ごと
「何段階あるか」に惑わされないことが重要です。
まとめ(試験直前用)
- 系統抽出 → 一定間隔
- 多段抽出 → 段階的に絞る
- 集落抽出 → グループ丸ごと
- 層別抽出 → 比率を保つ
DS検定では
「グループから一部か?全員か?」
ここを切り分けられるかが勝負です。
対応スキル項目(データサイエンス力シート)
- データ収集
- 標本設計
- ★ 母集団と標本の違いを理解している
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- カテゴリ変数とは?数値データとの違いを整理【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】