计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (4): 113-116.DOI: 10.3778/j.issn.1002-8331.2010.04.036
韩红旗1,2,朱东华1,刘 嵩1,汪雪锋1
HAN Hong-qi1,2,ZHU Dong-hua1,LIU Song1,WANG Xue-feng1
摘要: 提出了一种没有训练集情况下实现对未标注类别文本文档进行分类的问题。类关联词是与类主体相关、能反映类主体的单词或短语。利用类关联词提供的先验信息,形成文档分类的先验概率,然后组合利用朴素贝叶斯分类器和EM迭代算法,在半监督学习过程中加入分类约束条件,用类关联词来监督构造一个分类器,实现了对完全未标注类别文档的分类。实验结果证明,此方法能够以较高的准确率实现没有训练集情况下的文本分类问题,在类关联词约束下的分类准确率要高于没有约束情况下的分类准确率。
中图分类号: