计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (4): 113-117.DOI: 10.3778/j.issn.1002-8331.1507-0240
刘海峰,刘守生,宋阿羚
LIU Haifeng, LIU Shousheng, SONG Aling
摘要: 文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法。随后的文本分类实验验证了提出的优化IG模型的有效性。