组合降维技术在中文网页分类中的应用

计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (24): 169-171.

组合降维技术在中文网页分类中的应用

李新福

河北大学数学与计算机学院，河北保定 071002

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-08-21 发布日期:2007-08-21
通讯作者: 李新福

Web page categorization based on LSA and features selection

LI Xin-fu

College of Mathematics and Computer，Hebei University，Baoding，Hebei 071002，China

Received:1900-01-01 Revised:1900-01-01 Online:2007-08-21 Published:2007-08-21
Contact: LI Xin-fu

摘要/Abstract

摘要：

基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量，只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上，采用隐含语义分析技术，挖掘文档特征间的语义信息，利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%，验证了该方法的有效性。

关键词: 网页分类, 隐含语义分析, 特征选择, KNN

Abstract: The feature vector of Chinese Web page is high dimension and very sparse for text categorization.How to reduce the dimensionality of feature space is a very key problem for practical text classification.In this paper a new method is described.The approach is to take advantage of latent semantic analysis and feature selection that use statistical methods.The K-Nearest Neighbor method is selected as the evaluating classifiers.The experimental result shows that the proposed method for Chinese Web page categorization to be promising.

Key words: Web Page categorization, latent semantic analysis, feature selection, KNN

李新福. 组合降维技术在中文网页分类中的应用[J]. 计算机工程与应用, 2007, 43(24): 169-171.

LI Xin-fu. Web page categorization based on LSA and features selection[J]. Computer Engineering and Applications, 2007, 43(24): 169-171.

[1]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[2]	李静星，杨有龙. 针对高维数据的马尔科夫毯特征选择[J]. 计算机工程与应用, 2021, 57(6): 58-66.
[3]	雷恒林，古兰拜尔·吐尔洪，买日旦·吾守尔，张东梅. 新奇检测综述[J]. 计算机工程与应用, 2021, 57(5): 47-55.
[4]	王乐，韩萌，李小娟，张妮，程浩东. 不平衡数据集分类方法综述[J]. 计算机工程与应用, 2021, 57(22): 42-52.
[5]	林炜星，王宇嘉，陈万芬，梁海娜. 基于多因子粒子群的高维数据特征选择算法[J]. 计算机工程与应用, 2021, 57(22): 199-207.
[6]	李珑珠，林耀进，吕彦，卢舜，王晨曦. 利用邻域信息交互的在线流特征选择算法[J]. 计算机工程与应用, 2021, 57(21): 102-108.
[7]	陈倩茹，李雅丽，许科全，刘铱龙，王淑琴. 自调优自适应遗传算法的WKNN特征选择方法[J]. 计算机工程与应用, 2021, 57(20): 164-171.
[8]	武炜杰，张景祥. 融合分类信息的随机森林特征选择算法及应用[J]. 计算机工程与应用, 2021, 57(17): 147-156.
[9]	蔡瑞光，张德生，张晓. 基于双向选择的伪近邻算法[J]. 计算机工程与应用, 2021, 57(13): 102-107.
[10]	邱云飞，高华聪. 混合Filter与改进自适应GA的特征选择方法[J]. 计算机工程与应用, 2021, 57(11): 95-102.
[11]	霍林，陆寅丽. 改进粒子群算法应用于Android恶意应用检测[J]. 计算机工程与应用, 2020, 56(7): 96-101.
[12]	廖文雄，曾碧，梁天恺，徐雅芸，赵俊峰. 面向高维数据的个人信贷风险评估方法[J]. 计算机工程与应用, 2020, 56(4): 219-224.
[13]	彭明，张海澎. 基于Schatten-p范数和特征自表示的无监督特征选择[J]. 计算机工程与应用, 2020, 56(23): 45-52.
[14]	应毅，任凯，刘亚军. 基于GIS技术和加权kNN算法的实时揽件调度方法[J]. 计算机工程与应用, 2020, 56(21): 248-252.
[15]	刘峰，Godfred Kim Mensah，李欣芸，刘鸿丽，李瑶，郭浩. 不确定脑网络的异常拓扑分析及分类研究[J]. 计算机工程与应用, 2020, 56(2): 127-132.