ds data-preparation statistics
まず結論
- 抽出方法とは、母集団の中から調査対象を選ぶ方法のことです。
- DS検定では 「なぜその抽出方法を使うのか」 を理解しているかが問われます。
特に試験では次の5つの抽出方法を区別できることが重要です。
- 単純無作為抽出
- 系統抽出
- 層化無作為抽出
- 集落抽出
- 多段抽出
DS検定では 層化抽出と集落抽出を混同させる問題 がよく出ます。
直感的な説明
たとえば、全国の家庭の電気使用量を調査するとします。
しかし、全国すべての家庭を調査するのは現実的ではありません。
そこで 一部だけ調査して全体を推定します。
このとき重要なのが
- どのようにサンプルを選ぶか
という 抽出方法(サンプリング)です。
抽出方法によって
- 調査の精度
- コスト
- 偏りのリスク
が大きく変わります。
DS検定では
目的に応じて抽出方法を選べるかが問われます。
定義・仕組み
代表的な抽出方法を整理します。
単純無作為抽出(Simple Random Sampling)
母集団のすべての対象が
同じ確率で選ばれるようにランダムに抽出する方法です。
例
住民名簿からコンピュータでランダムに100人選ぶ
特徴
- 最も基本的な抽出方法
- 偏りが少ない
- 大規模調査では実務的に難しい
キーワード
- 完全ランダム
- 同じ確率
系統抽出(Systematic Sampling)
一定の間隔でサンプルを抽出する方法です。
例
名簿から
- 最初の1人をランダムに選ぶ
- その後は 10人ごと に抽出
特徴
- 実務で使いやすい
- データに周期性があると偏る可能性
キーワード
- 一定間隔
- k人ごと
層化無作為抽出(Stratified Sampling)
母集団を 似た性質ごとのグループ(層)に分けて抽出する方法です。
例
年齢別に
- 20代
- 30代
- 40代
に分けて、それぞれから抽出する。
特徴
- 偏りを防げる
- 出現頻度が低い事象も把握できる
DS検定では
「レアケースを漏らさない」という説明が出たら
層化抽出であることが多いです。
キーワード
- 属性別
- 偏り防止
- レアケース
集落抽出(Cluster Sampling)
母集団を 地域などの集団(集落)に分けて調査する方法です。
例
全国調査で
- 市区町村をランダムに選ぶ
- 選ばれた地域の世帯を調査
特徴
- 調査コストを大きく下げられる
- 集落の偏りが結果に影響する
キーワード
- 地区
- 学校
- 市町村
- 調査コスト
多段抽出(Multistage Sampling)
段階的に抽出を行う方法です。
例
- 都道府県を抽出
- 市町村を抽出
- 世帯を抽出
このように 複数段階で抽出する方法です。
特徴
- 大規模統計調査でよく使われる
- 国勢調査などで採用される
キーワード
- 段階的
- 複数ステップ
どんな場面で使う?
抽出方法は 目的によって選びます。
精度を高めたい場合
層化抽出
理由
- 偏りを防げる
- レアケースも含められる
調査コストを下げたい場合
集落抽出
理由
- 地域単位で調査できる
- 調査範囲を限定できる
大規模調査の場合
多段抽出
理由
- 現実的な調査設計ができる
よくある誤解・混同
層化抽出 vs 集落抽出
DS検定で最も多い混同です。
| 抽出方法 | 目的 |
|---|---|
| 層化抽出 | 偏りを防ぐ |
| 集落抽出 | 調査コスト削減 |
選択肢では次のように書かれることがあります。
層化抽出の特徴
- 出現頻度が低い事象も把握できる
集落抽出の特徴
- 地域単位で調査できる
無作為抽出の誤解
無作為とは
「完全に適当に選ぶ」ことではありません。
意味は
全ての対象が同じ確率で選ばれるようにすること
です。
まとめ(試験直前用)
抽出方法は 目的で判断するのがコツです。
- 完全ランダム → 単純無作為抽出
- 一定間隔 → 系統抽出
- 偏り防止 → 層化抽出
- 地域単位 → 集落抽出
- 段階的抽出 → 多段抽出
DS検定では特に
層化抽出(精度)と集落抽出(コスト)
の違いを問う問題がよく出ます。
対応スキル項目(データサイエンス力シート)
- 数理・統計基礎
- データの分布とサンプリング
- ★ 母集団と標本の違いを理解し、適切なサンプリング方法を説明できる
🔗 関連記事
- ベイズの定理とは?(条件付き確率の逆算)【DS検定リテラシー】
- ベルヌーイ試行と二項分布とは?【DS検定リテラシー】
- 二項分布とベルヌーイ試行とは?(成功回数の確率の考え方)【DS検定】
- カテゴリ変数とは?数値データとの違いを整理【DS検定】
- 因果推論とは?相関との違いを整理【DS検定リテラシー】