计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (8): 123-126.DOI: 10.3778/j.issn.1002-8331.2010.08.035
赵 倩,尚学群,王 淼
ZHAO Qian,SHANG Xue-qun,WANG Miao
摘要: 半监督聚类在无监督学习中通过对少量监督信息的有效利用提高聚类性能。提出一种基于seeds集的半监督聚类算法,它采用Apiori算法对初始seeds集和扩大规模后seeds集的数据进行频繁项集挖掘,使得数据中存在的噪音数据和误标记数据得到净化、修正,以改善seeds集质量,提高聚类性能。该算法使用带权χ2测试这一数学模型作为分类规则度量指标,以对无标记数据进行类标签值预测。实验结果显示,所提出的结合了频繁项集挖掘和带权χ2测试的基于seeds集的半监督聚类算法不仅改善了seeds集质量,也提高了预测结果的精确度,优化了聚类性能。
中图分类号: