计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (1): 125-128.DOI: 10.3778/j.issn.1002-8331.2010.01.039
许世明1,2,武 波1,马 翠2,邸 思2,徐洪奎2,杜如虚2
XU Shi-ming1,2,WU Bo1,MA Cui2,DI Si2,XU Hong-kui2,DU Ru-xu2
摘要: 中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。
中图分类号: