计算机工程与应用 ›› 2013, Vol. 49 ›› Issue (22): 110-114.
刘海峰,苏 展,刘守生
LIU Haifeng, SU Zhan, LIU Shousheng
摘要: CHI是一种常用的文本特征选择方法。针对该模型的不足之处,以特征项的频数为依据,分别从特征项的类内分布、类间分布以及类内不同文本之间分布等角度,对CHI模型进行逐步优化,使得特征项频数信息得到了有效利用。提出了一种基于词频信息的改进CHI模型。随后的文本分类试验证明了提出优化CHI模型的有效性。