计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (35): 159-161.

• 数据库与信息处理 • 上一篇    下一篇

基于信息增益的特征词权重调整算法研究

张玉芳,陈小莉,熊忠阳   

  1. 重庆大学 计算机学院,重庆 400030
  • 收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-12-11 发布日期:2007-12-11
  • 通讯作者: 张玉芳

Improved approach to weighting terms using information gain

ZHANG Yu-fang,CHEN Xiao-li,XIONG Zhong-yang   

  1. College of Computer,Chongqing University,Chongqing 400030,China
  • Received:1900-01-01 Revised:1900-01-01 Online:2007-12-11 Published:2007-12-11
  • Contact: ZHANG Yu-fang

摘要: 传统权重公式TFIDF忽略了词语在集合中的分布比例,针对TFIDF的这个缺点,把信息增益公式引入文本集合中并提出IF*IDF*IG,取得了较好的效果。在分析中发现单纯把信息增益引入文本集合并不能完全解决词语分布对词语权重的影响。从文档类别层次上考虑,把信息论中信息增益应用到文本集合的类别层次上,提出了一种改进的权重公式tf*idf*IGc,用改进的权重公式来衡量词语在文本集合的各个类别中分布比例上的差异,进一步弥补传统公式的不足。实验对比了改进的公式tf*idf*IGc和IF*IDF*IG的实验效果,实验证明tf*idf*IGc权重公式在表现词语权重时更有效。

关键词: 信息增益, 信息熵, 词语分布比例, 文本分类

Abstract: This paper applies the information gain to remedy the defect of TFIDF neglecting the proportion of distribution of terms in categories of the text collection.The information gain of terms as one factor for term-weighting can effectively weight the proportion of distribution of terms.

Key words: information gain, shannon entropy, distribution of terms, text classification