Web文档中词语权重计算方法的改进

计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (19): 192-194.

Web文档中词语权重计算方法的改进

初建崇¹，刘培玉²，王卫玲²

1.海军航空工程学院训练部，山东烟台 264001
2.山东师范大学信息科学与工程学院，济南 250014

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-07-01 发布日期:2007-07-01
通讯作者: 初建崇

Improved approach to weighting terms in Web Text

CHU Jian-chong¹，LIU Pei-yu²，WANG Wei-ling²

1.Naval Aeronautical Engineering Institute，Yantai，Shandong 264001，China
2.College of Information Science and Engineering，Shandong Normal University，Ji’nan 250014，China

Received:1900-01-01 Revised:1900-01-01 Online:2007-07-01 Published:2007-07-01
Contact: CHU Jian-chong

摘要/Abstract

摘要： 以向量空间模型作为Web文本的表示方法，对传统的TF*IDF公式进行了改进。首先，结合Web文本中HTML标签的修饰功能，体现了特征词在Web文本结构中的位置信息;其次，以广义信息论为理论基础，引入了基于二次熵的互信息作为权重计算公式的一项，体现了单词的类区分能力。实验验证了该方法的可行性和有效性。

初建崇¹，刘培玉²，王卫玲². Web文档中词语权重计算方法的改进[J]. 计算机工程与应用, 2007, 43(19): 192-194.

CHU Jian-chong¹，LIU Pei-yu²，WANG Wei-ling². Improved approach to weighting terms in Web Text[J]. Computer Engineering and Applications, 2007, 43(19): 192-194.

Web文档中词语权重计算方法的改进

Improved approach to weighting terms in Web Text

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 0

编辑推荐

Metrics