计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (4): 138-140.DOI: 10.3778/j.issn.1002-8331.2011.04.038
刘荣辉1,2,郑建国1
LIU Ronghui1,2,ZHENG Jianguo1
摘要: 随着Deep Web飞速的发展,使用商业网站上所提供的查询接口从Web数据库中获取高质量数据并对这些数据进行分析加工处理显得尤为重要。通过动态提交关键词,利用查询接口得到检索页面,对检索页面中的中文信息进行抽取并进行分词处理,对分词的结果进行统计分析,通过引入DF进行降维得到特征项,使用TF/IDF计算得到特征项的权重向量矩阵,对权重矩阵进行聚类从而实现文档的分类。通过仿真实验检验了本算法的合理性和可行性。
中图分类号: