文本分类TF-IDF算法的改进研究

doi:10.3778/j.issn.1002-8331.1805-0071

计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (2): 104-109.DOI: 10.3778/j.issn.1002-8331.1805-0071

文本分类TF-IDF算法的改进研究

叶雪梅1，2，毛雪岷1，2，夏锦春1，2，王波1，2

1.合肥工业大学管理学院，合肥 230009
2.合肥工业大学过程优化与智能决策教育部重点实验室，合肥 230009

出版日期:2019-01-15 发布日期:2019-01-15

Improved Approach to TF-IDF Algorithm in Text Classification

YE Xuemei1，2, MAO Xuemin1，2, XIA Jinchun1，2, WANG Bo1，2

1.School of Management, Hefei University of Technology, Hefei 230009, China
2.Key Laboratory of Process Optimization and Intelligent Decision-Making（MoE）, Hefei University of Technology, Hefei 230009, China

Online:2019-01-15 Published:2019-01-15

摘要/Abstract

摘要： 中国互联网环境的发展，让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF（Term Frequency and Inverted Document Frequency）算法主要考虑TF和IDF两个方面的因素，未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响，提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词，并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理，可以达到特征降维的目的，并且改进后的特征权重算法能优化文本分类的结果。

关键词: 新词, 词频-逆文档频率（TF-IDF）, 向量空间模型, 文本分类

Abstract: With the development of Internet environment in China, a lot of new words with rich information have been popularized. The traditional term weight algorithm named TF-IDF（Term Frequency and Inverted Document Frequency） mainly considers two factors named TF and IDF without the advantage of new words. In view of the influence of new words in feature items on classification results, an improved TF-IDF algorithm based on new words of network is proposed in text classification. Research recognizes new words in the text preprocessing, and improves the weight calculation formula of them in the vector space model representation. Experimental results show that adding new word discovery process to text preprocessing can reduce feature dimension, meanwhile, the improved TF-IDF algorithm can optimize the result of text classification.

Key words: new words, Term Frequency and Inverted Document Frequency（TF-IDF）, vector space model, text classification

叶雪梅1，2，毛雪岷1，2，夏锦春1，2，王波1，2. 文本分类TF-IDF算法的改进研究[J]. 计算机工程与应用, 2019, 55(2): 104-109.

YE Xuemei1，2, MAO Xuemin1，2, XIA Jinchun1，2, WANG Bo1，2. Improved Approach to TF-IDF Algorithm in Text Classification[J]. Computer Engineering and Applications, 2019, 55(2): 104-109.

[1]	黄金杰，蔺江全，何勇军，何瑾洁，王雅君. 局部语义与上下文关系的中文短文本分类算法[J]. 计算机工程与应用, 2021, 57(6): 94-100.
[2]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[3]	郑诚，董春阳，黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
[4]	贺文亮，朱敏玲. 胶囊神经网络研究现状与未来的浅析[J]. 计算机工程与应用, 2021, 57(3): 33-43.
[5]	滕金保，孔韦韦，田乔鑫，王照乾，李龙. 基于CNN和LSTM的多通道注意力机制文本分类模型[J]. 计算机工程与应用, 2021, 57(23): 154-162.
[6]	武书钊，李功权，卜明伟. 基于知识图谱的自杀倾向检测问答系统构建[J]. 计算机工程与应用, 2021, 57(22): 304-312.
[7]	李铁飞，生龙，吴迪. BERT-TECNN模型的文本分类方法研究[J]. 计算机工程与应用, 2021, 57(18): 186-193.
[8]	丁勇，程家桥，蒋翠清，王钊. 基于主题和关键词特征的比较文本分类方法[J]. 计算机工程与应用, 2021, 57(17): 196-202.
[9]	滕金保，孔韦韦，田乔鑫，王照乾. 基于LSTM-Attention与CNN混合模型的文本分类方法[J]. 计算机工程与应用, 2021, 57(14): 126-133.
[10]	翟一鸣，王斌君，周枝凝，仝鑫. 面向文本分类的多头注意力池化RCNN模型[J]. 计算机工程与应用, 2021, 57(12): 155-160.
[11]	姚佳奇，徐正国，燕继坤，王科人. GCN-PU:基于图卷积网络的PU文本分类算法[J]. 计算机工程与应用, 2021, 57(11): 162-167.
[12]	申艳光，贾耀清. 基于词共现与图卷积的文本分类方法[J]. 计算机工程与应用, 2021, 57(11): 173-178.
[13]	郝超，裘杭萍，孙毅，张超然. 多标签文本分类研究进展[J]. 计算机工程与应用, 2021, 57(10): 48-56.
[14]	张曼，夏战国，刘兵，周勇. 全卷积神经网络的字符级文本分类方法[J]. 计算机工程与应用, 2020, 56(5): 166-172.
[15]	唐庄，王志舒，周爱，冯美姗，屈雯，鲁明羽. 面向文本分类的transformer-capsule集成模型[J]. 计算机工程与应用, 2020, 56(24): 151-156.

文本分类TF-IDF算法的改进研究

Improved Approach to TF-IDF Algorithm in Text Classification

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics