计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (2): 97-103.DOI: 10.3778/j.issn.1002-8331.1912-0215
张可铧,成卫青
ZHANG Kehua, CHENG Weiqing
摘要:
差分隐私算法作为当前研究较多的隐私保护机制之一,有着广泛应用。目前有多种基于差分隐私保护的[k]均值聚类算法,应用场景不一,各有缺陷。以往的算法通过均等划分数据集,构造等宽直方图进行聚类,这会导致没有数据分布的区域也被无差别插入噪声,影响聚类性能。针对这一点,提出了一种新的差分隐私聚类算法[DPQTk]-means,先通过构建差分隐私四分树,用大小不一的自适应存储桶动态划分数据空间,充分表示数据集同时减少噪声插入,再进行[k]均值聚类,证明了其满足[ε]-差分隐私保护。实验结果表明,[DPQTk]-means算法与以往的差分隐私聚类算法相比具有更好的聚类可用性,且能够在隐私保护水平较高的同时保持稳定的聚类性能。