计算机工程与应用 ›› 2016, Vol. 52 ›› Issue (16): 149-155.
孙寿伟,钱鹏江,陈爱国,蒋亦樟
SUN Shouwei, QIAN Pengjiang, CHEN Aiguo, JIANG Yizhang
摘要: 传统的聚类算法在以下两种情况下存在直接失效的风险:一是数据稀少或存在大量干扰数据;二是为了调控数据间的差异性,对数据集进行缩放。为了同时解决上述两个问题,提出了历史知识迁移准则与中心间距极大化准则,并将其运用到极大熵聚类算法中,称之为具备历史迁移能力的中心极大化聚类算法。算法有三大突出的优点:在当前数据稀少或存在污染时,算法有效利用了历史知识进行迁移学习,从而证明了较好的聚类有效性;在数据缩放到一定倍数时,传统聚类算法取得的类中心趋于一致,而算法利用类中心间距极大化准则,有效避免了类中心一致的问题;算法所利用的历史知识均不暴露历史源数据,因此算法具有良好的历史数据隐私保护效果。通过模拟数据集和真实数据集的实验,验证了算法的上述优点。