计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (19): 192-194.
初建崇1,刘培玉2,王卫玲2
CHU Jian-chong1,LIU Pei-yu2,WANG Wei-ling2
摘要: 以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。