gk metrics
G検定トップ
> ベイズ情報量基準(BIC)とは?G検定対策
まず結論
ベイズ情報量基準(BIC: Bayesian Information Criterion)は、モデルの複雑さにより強いペナルティを与えてモデル選択を行う指標です。 G検定では、AICとの違い(ペナルティの強さ)が問われます。
直感的な説明
BICは「シンプルさ重視の厳しい審査員」と考えると分かりやすいです。
- AIC:ほどほどに複雑でもOK
- BIC:複雑だとかなり減点
データ数が多いほど、
「パラメータが多いモデルは信用しない」
という姿勢が強くなります。
定義・仕組み
ベイズ情報量基準(BIC)は、次の式で定義されます。
BIC = -2 log L + k log n
- L:モデルの尤度(当てはまりの良さ)
- k:パラメータ数
- n:データ数
ポイントは次の点です。
-2 log L:当てはまりが良いほど小さいk log n:データ数が増えるほどペナルティが大きくなる
👉 BICも「小さいほど良いモデル」 と判断します。
いつ使う?(得意・不得意)
得意な場面
- データ数が多い場合のモデル選択
- 本当に必要な変数だけを残したいとき
注意が必要な点
- AICよりも単純なモデルを選びやすい
- 少量データでは過度に単純化する可能性
G検定ひっかけポイント
G検定では、AICとの比較が頻出です。
- AIC と BIC を入れ替えて覚えている
- どちらも精度指標だと思ってしまう
選択肢での判断基準は次の通りです。
- 複雑さへの罰が強い → BIC
- データ数が多いほど厳しい → BIC
- やや柔軟なモデル選択 → AIC
まとめ(試験直前用)
- BICはモデル選択の指標
- AICよりも複雑さへのペナルティが強い
- データ数 n を使うのが特徴
- 値は小さいほど良い
- 「シンプルさ重視」→ BIC
🔗 関連記事
- AICとBICの違いまとめ(モデル選択)
- 赤池情報量基準(AIC)とは?G検定対策
- バイアスとバリアンスとは?(トレードオフ)【G検定対策】
- Contrastive Loss(コントラスト損失)とは?【G検定対策】
- Contrastive LossとTriplet Lossの違い【G検定対策】
🏠 G検トップに戻る