k匿名性とは？データ匿名化の基本をわかりやすく解説【DS検定】

まず結論

k匿名性とは、年齢・地域・性別などの準識別子の組み合わせが、同じデータ内で少なくともk人以上になるように加工する匿名化の考え方です。

DS検定では、k匿名性を「再識別されにくくする技術的手法」として理解し、匿名加工情報や仮名加工情報との違いを切り分けます。

用語	見るポイント	例
直接識別子	それだけで個人を特定しやすい情報	氏名、マイナンバー、会員ID
準識別子	単体では特定しにくいが、組み合わせると個人を絞り込める情報	年齢、性別、地域、職業
センシティブ属性	知られると不利益につながりやすい属性	病名、年収、購買履歴

k匿名性は、「氏名を消せば安全」という話ではありません。
準識別子の組み合わせから個人が絞り込まれないようにする考え方です。

直感的な説明

たとえば、次のような医療データがあるとします。

年齢	地域	性別	病気
32	松山市	男性	A

このままだと、氏名がなくても、年齢・地域・性別の組み合わせから「誰のデータか」を推測できる可能性があります。

そこで、次のように情報を少し粗くします。

年齢	地域	性別	病気
30代	愛媛県	男性	A
30代	愛媛県	男性	B
30代	愛媛県	男性	C

この例では、「30代・愛媛県・男性」という同じ組み合わせの人が3人います。
つまり、k = 3 の3匿名性を満たしている状態です。

このように、k匿名性は、1人だけが目立つ状態を避け、同じ属性の人が複数いるようにして、個人を特定しにくくします。

定義・仕組み

k匿名性とは、データの準識別子の組み合わせが、少なくともk件以上存在するように加工する匿名化手法です。

ここで重要なのが、準識別子です。

準識別子とは、単体では個人を特定しにくいものの、組み合わせると個人を絞り込める可能性がある情報です。

たとえば、次のような情報です。

年齢
性別
郵便番号
地域
職業
勤務先の業種

k匿名性では、これらの準識別子を加工して、同じ組み合わせを持つ人を増やします。

加工方法の例

方法	内容	例
一般化	情報の粒度を粗くする	32歳 → 30代、松山市 → 愛媛県
抑制	一部の値を伏せる	住所の一部を削除、詳細な職業を非表示
集約	細かい分類を大きな分類にまとめる	市区町村 → 都道府県、商品名 → 商品カテゴリ

このような加工によって、個人が特定されにくい状態を作ります。

k匿名性の見方

k = 3 の場合、準識別子の組み合わせごとに、同じグループに最低3人以上いる必要があります。

年齢	地域	性別	件数	k=3を満たす？
30代	愛媛県	男性	3	満たす
40代	愛媛県	女性	2	満たさない
50代	四国	男性	5	満たす

2件しかないグループがある場合、k=3は満たしません。
その場合は、さらに地域を広げたり、年齢を広い範囲にしたりして、同じグループの人数を増やします。

どんな場面で使う？

k匿名性は、個人に関するデータを分析や公開に使いたいが、個人を特定されにくくしたい場面で使います。

医療データ

たとえば、次のようなデータです。

病院の統計データ
疫学研究データ
健康診断データ

医療データは有用ですが、病名や検査結果などのセンシティブな情報を含むことがあります。
そのため、準識別子を加工して個人を特定されにくくする必要があります。

公共データ

政府や自治体が公開するデータでも、k匿名性の考え方が関係します。

人口統計
交通データ
健康データ
教育・福祉に関する統計

DS検定では、データ活用とプライバシー保護の両立という文脈で問われることがあります。

匿名加工情報・仮名加工情報との関係

k匿名性は、匿名化を考えるときの技術的な考え方です。
一方、匿名加工情報や仮名加工情報は、個人情報保護法上の概念です。

個人情報保護委員会は、仮名加工情報・匿名加工情報に関する公式ガイドラインを公開しています。詳しく確認したい場合は、個人情報の保護に関する法律についてのガイドライン（仮名加工情報・匿名加工情報編）が参考になります。

用語	位置づけ	ポイント
k匿名性	技術的手法	準識別子の組み合わせがk人以上になるように加工する
匿名加工情報	法律上の概念	特定の個人を識別できず、復元できないように加工した情報
仮名加工情報	法律上の概念	他の情報と照合しない限り、特定の個人を識別できないように加工した情報

DS検定では、「k匿名性＝法律上の情報区分」と覚えるのではなく、匿名化を支える技術的な考え方の一つとして整理します。

よくある誤解・混同

誤解1：氏名を削除すればk匿名性を満たす

これは誤りです。

氏名のような直接識別子を削除しても、年齢、地域、性別、職業などの準識別子を組み合わせると、個人が推測されることがあります。

k匿名性では、準識別子の組み合わせごとに、同じ属性を持つ人が少なくともk人以上いる必要があります。

誤解2：k匿名性を満たせば完全匿名である

これも誤りです。

k匿名性は、準識別子から個人を特定しにくくする考え方です。
しかし、完全に安全という意味ではありません。

たとえば、同じグループ内のセンシティブ属性がすべて同じ場合、そのグループに属する人の病気や属性を推測できてしまうことがあります。

年齢	地域	性別	病気
30代	愛媛県	男性	A
30代	愛媛県	男性	A
30代	愛媛県	男性	A

この場合、3匿名性は満たしていても、同じグループの病気がすべてAなので、病気を推測されるリスクがあります。

誤解3：匿名化すれば再識別リスクはゼロになる

匿名化しても、外部データと組み合わせることで再識別される可能性があります。

たとえば、公開データとSNS、名簿、地域情報などを突き合わせることで、個人が推測される場合があります。

DS検定では、匿名化にも限界があるという理解が重要です。

誤解4：k匿名性、l多様性、t近接性は同じ

k匿名性は、準識別子による個人の絞り込みを防ぐ考え方です。

一方、l多様性やt近接性は、k匿名性の限界を補うための考え方として扱われます。

考え方	主な目的
k匿名性	同じ準識別子の組み合わせを持つ人をk人以上にする
l多様性	同じグループ内のセンシティブ属性に多様性を持たせる
t近接性	グループ内のセンシティブ属性の分布を全体分布に近づける

DS検定では、まずk匿名性を基本として押さえ、l多様性やt近接性は限界を補う考え方として理解します。

判断軸の再確認（確認問題の前に）

氏名を消すだけかを見る：それだけではk匿名性とは限らない。
準識別子の組み合わせを見る：同じ組み合わせがk人以上いるか。
センシティブ属性の偏りを見る：k匿名性だけでは属性推測を防げない場合がある。
法律の概念か技術の概念かを見る：匿名加工情報は法律上の概念、k匿名性は技術的手法。

確認問題（DS検定対策）

k匿名性の説明として、最も適切なものはどれか。

ア. 氏名を削除すれば、必ずk匿名性を満たす。
イ. 準識別子の組み合わせが、同じデータ内で少なくともk人以上になるように加工する。
ウ. データを暗号化して、復号鍵を持つ人だけが読めるようにする。
エ. 個人を識別できるIDを別のIDに置き換え、元の情報と照合できるようにする。

▶ クリックして答えと解説を見る（ここを開く）

正解：イ

解説

ア：誤りです。氏名を削除しても、年齢・地域・性別などの準識別子の組み合わせから個人が推測される可能性があります。
イ：適切です。k匿名性は、準識別子の組み合わせが少なくともk人以上になるように加工する考え方です。
ウ：暗号化の説明です。k匿名性は、復号鍵で読めるかどうかではなく、準識別子による再識別リスクを下げる考え方です。
エ：仮名化や仮名加工情報に近い説明です。k匿名性そのものの説明ではありません。

判断ポイントは、「準識別子」と「同じ組み合わせがk人以上」です。

まとめ（試験直前用）

k匿名性＝準識別子の組み合わせが少なくともk人以上になるように加工する考え方
準識別子＝単体では特定しにくいが、組み合わせると個人を絞り込める情報
代表例は、年齢、性別、地域、職業、郵便番号など
加工方法には、一般化、抑制、集約などがある
k匿名性を満たしても、完全匿名とは限らない
同じグループのセンシティブ属性が偏ると、属性を推測される可能性がある
l多様性やt近接性は、k匿名性の限界を補う考え方
匿名加工情報・仮名加工情報は法律上の概念、k匿名性は技術的手法
DS検定では「準識別子」「再識別リスク」「完全匿名ではない」を押さえる