ε-差分隐私

差分隐私是一个用于保护数据隐私的信息论方法。它旨在混淆基于邻接数据集的查询结果。

公式定义

一个随机化算法 $\mathcal{A}: \mathbb{D}\to \mathbb{R}^{t}$ 提供 $\epsilon$-DP,当对所有邻接数据集 $D_{1}\in \mathbb{D}$ 和 $D_{2}\in \mathbb{D}$ 在最多一个元素上不同,且对所有 $S\subseteq Range(\mathcal{A})$ 有$Pr(\mathcal{A}(D_{1})\in S)\leq Pr(\mathcal{A}(D_{2})\in S)$。

此处,差分隐私水平 $\epsilon$ 是一个正数,他衡量隐私的损失。更小的 $\epsilon$ 总是意味着更好的保护:当 $\epsilon$ 很小时,对所有 $S\subseteq Range(\mathcal{A})$ 有$Pr(\mathcal{A}(D_{1})\in S)\approx Pr(\mathcal{A}(D_{2})\in S)$。从而查询结果 $\mathcal{A}(D_{1})$ 和 $\mathcal{A}(D_{2})$ 几乎难以分辨,这防止了攻击者识别出原始数据集。

考虑有限制的差分隐私,此时两个邻居数据集拥有相同的大小,且只在一个位置有不同的记录。

一种实现 $\epsilon$-DP 的方法是添加 Laplace 噪声。具体来说,对所有函数 $\mathcal{F}: \mathcal{D}\to \mathbb{R}^{t}$,随机化算法 $\mathcal{A}(D)=\mathcal{F}(D)+[n_{1}, n_{2}, \ldots, n_{t}]^{T}$ 提供 $\epsilon$-DP,此处每个 $n_{i}$ 相互独立地来自于 Laplace 分布 $Lap(S(\mathcal{F}/\epsilon))$,$S(\mathcal{F})$ 表示 $\mathcal{F}$ 的全局敏感度。特别指出全局敏感度 $S(\mathcal{F})=\max_{neighboring databases D, D’\in \mathbb{D}}\parallel\mathcal{F}(D)-\mathcal{F}(D’)\parallel_{1}$,且 $Lap(\lambda)$ 是一个零均值 Laplace 分布,其概率密度函数 $f(x\mid\lambda)=\frac{1}{2\lambda}e^{-\frac{\mid x\mid}{\lambda}}$。

(未完待续)

参考文献

  • Linshan Jiang, Xin Lou, Rui Tan, and Jun Zhao. 2019. Differentially Private Collaborative Learning for the IoT Edge. In Proceedings of the 2019 International Conference on Embedded Wireless Systems and Networks (EWSN ‘19). Junction Publishing, USA, 341-346.

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×