PPDM: プライバシー保護データマイニング¶
課題: プライバシー指標の確立¶
- 保護に関する妥当な指標による保証と広い認知
- 保護と有用性のトレードオフに対する平衡点の探索
PPDMの具体的手法¶
- セキュア関数計算
- k-匿名法
- 再構築法
再構築法に対する指標の提案¶
関連研究¶
k-匿名性¶
テーブル形式のDBの保護処理において、 “保護処理後テーブルの中に、どのデータ行に関しても同じデータ行が自身を含めk個以上存在する” = “どのデータも持ち主をk人以下に絞り込めない” ことを保証する指標。
k-匿名性に基いて、準識別子からデータの持ち主をk人以下に絞り込めぬよう、 準識別子データの抽象化や削除を行うことで、プライバシー保護を実現する。
再構築法¶
撹乱と再構築
Pk-匿名化の定義¶
準備¶
テーブル¶
データ提供者から提供されたデータの集まり
レコード¶
テーブル上で行として表現される、一人のデータ提供者からのデータのまとまり
属性¶
各レコードを構成する値に対応する、いくつかの予め定められた項目
テーブル保護系の形式的定義¶
秘密のテーブル¶
\begin{eqnarray} \tau : {\cal R} \longrightarrow \prod_{\alpha \in {\cal A}} {\cal V} _\alpha \end{eqnarray}
- Rは有限集合
- Rの要素はテーブルのレコード(データの持ち主の集合)を表す。
- Aは属性の集合
- V_alpha は対応する属性値の集合
以降
\begin{eqnarray} {\cal V} := \prod_{\alpha \in {\cal A}} {\cal V} _\alpha \end{eqnarray}
公開テーブル¶
\begin{eqnarray} \tau^{\prime} : {\cal R}^{\prime} \longrightarrow \prod_{\alpha^{\prime} \in {\cal A^{\prime}}} {\cal V^{\prime}} _{\alpha^{\prime}} \end{eqnarray}
- R’, A’, V’_alpha’ は、R, A, V_alpha と一致しているとは限らない。
以降
\begin{eqnarray} {\cal V^{\prime}} := \prod_{\alpha^{\prime} \in {\cal A^{\prime}}} {\cal V^{\prime}} _{\alpha^{\prime}} \end{eqnarray}
その他の前提条件¶
\begin{eqnarray} \pi & : & {\cal R} \longrightarrow {\cal R^{\prime}} \\ \delta & : & ({\cal R} \longrightarrow {\cal V}) \longrightarrow ({\cal R} \longrightarrow {\cal V^{\prime}}) \\ \delta(\tau) & = & \tau^{\prime} \circ \pi \end{eqnarray}
- それぞれ tau, tau’, pi, delta に対応する確率変数を TAU, TAU’, PI, DELTA と書き、
- そのうち TAU と PI 及び DELTA は互いに独立とする。
攻撃者¶
\begin{eqnarray} {f}_{\cal T} : ({\cal R} \longrightarrow {\cal V}) \longrightarrow \mathbb{R} \end{eqnarray}
- {f}_{cal T} は T の確率分布
テーブル保護系¶
\begin{eqnarray} {\cal P} := ({\cal R}, {\cal V}, {\cal R^{\prime}}, {\cal V^{\prime}}, \Pi, \Delta) \end{eqnarray}
k-匿名性の形式的定義¶
準識別子に関するデータのみを抽出した公開テーブルを tau’ とする。
自然数 k に対し tau’ が以下を満たすとき、tau’ は k-匿名性を満たすという。
任意の v' \in V' に対し、
tau'(r') = v' を満たす r' が
k 個以上存在する
- R | = | R’ |
Pi は一様ランダム置換