计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (1): 144-146.DOI: 10.3778/j.issn.1002-8331.2011.01.039
朱颖雯1,吉根林2,孙勤红1
ZHU Yingwen1,JI Genlin2,SUN Qinhong1
摘要: 提出了一种基于频繁子树模式的GML文档结构聚类算法GCFS(GML Clustering based on Frequent Subtree patterns),与其他相关算法不同,该算法首先挖掘GML文档集合中的最大与闭合频繁Induced子树,并将其作为聚类特征,根据频繁子树的大小赋予不同的权值,采用余弦函数定义相似度,利用K-Means算法对聚类特征进行聚类。实验结果表明算法GCFS是有效的,具有较高的聚类效率,性能优于其他同类算法。
中图分类号: