计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (12): 144-146.

• 数据库与信息处理 • 上一篇    下一篇

基于类信息的文本聚类中特征选择算法

严莉莉 张燕平   

  1. 安徽大学计算机科学与技术学院 杭州电子工业学院软件学院
  • 收稿日期:2006-09-04 修回日期:1900-01-01 出版日期:2007-04-20 发布日期:2007-04-20
  • 通讯作者: 严莉莉

A Class-based Feature Selection Algorithm for Test Clustering

  • Received:2006-09-04 Revised:1900-01-01 Online:2007-04-20 Published:2007-04-20

摘要: 文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,因此本文提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验验证了算法的可行性和有效性。

关键词: 特征选择, 密度聚类算法, 文本聚类

Abstract: Test clustering is an unsupervised learning method. Some effective supervised feature selection methods can’t be applied to it because of the unavailability of class information. So a new feature selection algorithm base on class information was put forward in this paper, which addresses the Information Gain method on density clustering results to select out the best small part of features. And the results show the feasibility and effectiveness of the algorithm.

Key words: feature selection, density clustering algorithm, test clustering