计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (29): 124-126.
鲁梦平1,黄 翰1,蔡昭权2,朱一帆1,何翊宇1,徐震宇1
LU Mengping1,HUANG Han1,CAI Zhaoquan2,ZHU Yifan1,HE Yiyu1,XU Zhenyu1
摘要: 现有的博客文章分类的研究通常直接沿用传统文本分类方法,并没有结合博客自身的特点。研究基于文章要素的影响分析实现分类效果的改进。提出了一种简单的博客文本去噪方法,以保证博客数据的可靠性;提出了基于博客标签的中文词库扩展方法,用于改善中文分词效果,以提高博客分类的准确性;根据综合评价模型G1法计算博客文章中标题、标签、类别、首段、末段以及正文等文章要素的权重,分析它们对博客分类的影响。实验结果表明,研究提出的方法比传统的TFIDF方法有更好的分类效果。