计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (23): 102-107.DOI: 10.3778/j.issn.1002-8331.1606-0143
黄苑华1,谢 峰1,郝志峰1,2,3,蔡瑞初2
HUANG Yuanhua1, XIE Feng1, HAO Zhifeng1,2,3, CAI Ruichu2
摘要: 聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分类型数据的聚类是学习算法中重要而又棘手的问题。传统的k-modes算法采用简单的0-1匹配方法定义两个属性值之间的相异度,没有将整个数据集的分布考虑进来,导致差异性度量不够准确。针对这个问题,提出基于结构相似性的k-modes算法。该算法不仅考虑属性值它们本身的异同,而且考虑了它们在其他属性下所处的结构。从集群识别和准确率两个方面进行仿真实验,表明基于结构相似性的k-modes算法在伸缩性和准确率方面更有效。