计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (2): 104-109.DOI: 10.3778/j.issn.1002-8331.1805-0071
叶雪梅1,2,毛雪岷1,2,夏锦春1,2,王 波1,2
YE Xuemei1,2, MAO Xuemin1,2, XIA Jinchun1,2, WANG Bo1,2
摘要: 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。