ds design
まず結論
- 第一種の過誤=本当は差がないのに「ある」と判断してしまう誤り
- 第二種の過誤=本当は差があるのに「ない」と判断してしまう誤り
DS検定では
「どちらがどの誤りか」「検定力とどう関係するか」を判断できるかが問われます。
直感的な説明
たとえば、新しい薬の効果を検証する場面を考えます。
帰無仮説:「この薬には効果がない」
■ 第一種の過誤(タイプⅠエラー)
本当は効果がないのに
「効果がある」と言ってしまう。
→ 誤って採用してしまうミス
■ 第二種の過誤(タイプⅡエラー)
本当は効果があるのに
「効果はない」と言ってしまう。
→ 本当の効果を見逃すミス
ビジネスで言い換えると:
| 状況 | 何が起きている? |
|---|---|
| 第一種の過誤 | ダメな施策を「成功」と判断 |
| 第二種の過誤 | 本当は有効な施策を却下 |
どちらも重大ですが、意味がまったく違います。
定義・仕組み
仮説検定では、
- 差がない → 帰無仮説
- 差がある → 対立仮説
という構造を取ります。
■ 第一種の過誤(α)
帰無仮説が正しいのに棄却する誤り。
この確率が 有意水準(α) です。
つまり、
有意水準=第一種の過誤をどこまで許すか
ということです。
■ 第二種の過誤(β)
帰無仮説が誤りなのに棄却できない誤り。
この確率が β(ベータ)です。
■ 検定力(power)
検定力 = 1 − β
意味は:
本当に差があるときに、きちんと差を見つけられる力
DS検定では、
- 「検定力が高い」とは何か
- 「βとの関係は何か」
を理解しているかが問われます。
どんな場面で使う?
✔ 医療
- 第一種の過誤:効かない薬を承認
- 第二種の過誤:効く薬を却下
✔ ビジネス施策
- 第一種:意味のない改善を採用
- 第二種:有効な改善を見逃す
✔ 品質管理
- 第一種:正常品を不良と判定
- 第二種:不良品を正常と判定
状況によって「どちらを重く見るか」は変わります。
よくある誤解・混同
❌ 第一種と第二種を逆に覚える
DS検定ではここをよく混同させてきます。
覚え方:
第一種=「ある」と言ってしまうミス
第二種=「ない」と言ってしまうミス
❌ 有意水準=第二種の過誤
→ 誤りです。
有意水準は 第一種の過誤(α) です。
❌ 検定力=有意水準
→ 誤りです。
検定力は 1 − β です。
❌ 有意水準を下げれば全部よくなる
有意水準を厳しくすると:
- 第一種の過誤は減る
- しかし第二種の過誤は増えやすい
つまり、
αとβはトレードオフの関係
ここはDS検定でよく問われます。
DS検定での典型的なひっかけ
- 「検定力とは第一種の過誤を犯す確率である」
- 「有意水準は第二種の過誤である」
このような選択肢は誤りです。
まとめ(試験直前用)
- 第一種の過誤=差がないのに「ある」と判断(α)
- 第二種の過誤=差があるのに「ない」と判断(β)
- 検定力=1 − β(見逃さない力)
- αとβはトレードオフ
迷ったら:
第一種=誤って採用
第二種=誤って却下
この判断軸で選択肢を切れます。
対応スキル項目(データサイエンス力シート)
- スキルカテゴリ:統計的推論
- サブカテゴリ:仮説検定
- ★ 第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる本当は効果があるのに「効果はない」と判断してしまう。
→ チャンスを逃す。
どちらもビジネスでは大きな損失になります。
定義・仕組み
第一種の過誤(Type I Error)
- 帰無仮説が真なのに棄却してしまう誤り
- 起こる確率=有意水準(α)
有意水準を5%に設定するということは、
「5%の確率で第一種の過誤を許容する」という意味です。
第二種の過誤(Type II Error)
- 帰無仮説が偽なのに棄却できない誤り
- その確率を β と呼ぶ
検出力(Power)
- 検出力= 1 − β
- 本当に効果があるときに、正しく見抜ける確率
一般に、検出力は0.8以上が望ましいとされます。
p値との関係
p値とは、
「帰無仮説が正しいと仮定したときに、今のデータ以上に極端な結果が出る確率」
です。
- p値が有意水準より小さい → 帰無仮説を棄却
- p値が大きい → 棄却できない
DS検定では、
- p値は「帰無仮説が正しい確率」ではない
- p値が小さい=効果が大きい、ではない
といった誤解を突く問題がよく出ます。
どんな場面で使う?
使う場面
- A/Bテスト
- 新商品の効果検証
- 医療の治療効果判定
- 不良品率の改善確認
実務で重要なポイント
- 第一種の過誤を小さくすると、第二種の過誤が増えやすい
- サンプルサイズを増やすと、検出力が上がる
つまり、
「どちらの誤りをより避けたいのか」
が設計の出発点になります。
よくある誤解・混同
① 第一種と第二種を逆に覚える
DS検定ではここをよく入れ替えてきます。
「誤って棄却」か「棄却できない誤り」かで判断します。
② p値=帰無仮説が正しい確率
これは誤りです。
p値は「データの珍しさ」です。
③ 有意水準を下げれば安心
有意水準を1%にすると第一種の過誤は減りますが、
第二種の過誤は増えやすくなります。
試験では、
「有意水準を下げると検出力が上がる」
という選択肢があれば誤りです。
まとめ(試験直前用)
- 第一種の過誤=本当は差がないのに棄却
- 第二種の過誤=本当は差があるのに棄却できない
- 有意水準=第一種の過誤の確率
- 検出力=本当に効果があるとき見抜ける確率
- p値は「帰無仮説が正しい確率」ではない
DS検定では
「どの確率を指しているのか」を冷静に切り分けることが重要です。
対応スキル項目(データサイエンス力シート)
- 統計基礎
- 仮説検定
- ★ 仮説検定における有意水準・p値・第一種の過誤・第二種の過誤の意味を理解している
🔗 関連記事
- アクセス制御リスト(ACL)とは?ファイル権限の基本を整理【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アジャイル開発とは?ウォーターフォール開発との違いを整理【DS検定】
- 分析アプローチ設計とは?(分析プロジェクトを成功させる設計プロセス)【DS検定】
- 必要なデータ・分析手法・可視化を適切に選択する力とは?【DS検定】