基于类信息的文本特征选择与加权算法研究

doi:10.3778/j.issn.1002-8331.2008.20.044

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (20): 145-147.DOI: 10.3778/j.issn.1002-8331.2008.20.044

• 数据库、信号与信息处理 • 上一篇下一篇

基于类信息的文本特征选择与加权算法研究

吕震宇¹,林永民¹,赵爽¹,陈景年²,朱卫东²

1.河北理工大学经济管理学院，河北唐山 063009
2.北京交通大学计算机与信息技术学院，北京 100044

收稿日期:2007-10-09 修回日期:2007-12-24 出版日期:2008-07-11 发布日期:2008-07-11
通讯作者: 吕震宇

Research on algorithm of text feature selection and weighting based on category

LV Zheng-yu¹,LIN Yong-min¹,ZHAO Shuang¹,CHEN Jing-nian²,ZHU Wei-dong²

1.College of Economics and Management，Hebei Polytechnic University，Tangshan，Hebei 063009，China
2.School of Computer and Information Technology，Beijing Jiaotong University，Beijing 100044，China

Received:2007-10-09 Revised:2007-12-24 Online:2008-07-11 Published:2008-07-11
Contact: LV Zheng-yu

摘要/Abstract

摘要： 文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类，而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系，缺乏对特征与类别关系的考虑。针对上述问题，提出了基于类别信息的特征选择与加权方法，在两个不同的语料集上进行比较和分析实验，结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度，并且降维程度有所提高。

关键词: 文本分类, 特征选择, 特征加权, 基尼指数

Abstract: The aim of feature selection and weighting in automatic text categorization is to reduce the dimension of feature space，remove noise features and improve classification precision.The features selected by traditional feature selection methods always bias common category，and the commonly used weighting method TF*IDF only considers the relationship between features and documents and ignores the relationship between features and categories.According to the above problem，this paper presents a text feature selection and weighting method based on category.Experiments on skewed category distribution corpus of two different languages show that the method can improve categorization precision effectively，and comparing with traditional method，the feature space dimension is also reduced to a certain degree.

Key words: text categorization, feature selection, feature weighting, Gini-Index

吕震宇¹,林永民¹,赵爽¹,陈景年²,朱卫东². 基于类信息的文本特征选择与加权算法研究[J]. 计算机工程与应用, 2008, 44(20): 145-147.

LV Zheng-yu¹,LIN Yong-min¹,ZHAO Shuang¹,CHEN Jing-nian²,ZHU Wei-dong². Research on algorithm of text feature selection and weighting based on category[J]. Computer Engineering and Applications, 2008, 44(20): 145-147.

[1]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[2]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[3]	李静星，杨有龙. 针对高维数据的马尔科夫毯特征选择[J]. 计算机工程与应用, 2021, 57(6): 58-66.
[4]	黄金杰，蔺江全，何勇军，何瑾洁，王雅君. 局部语义与上下文关系的中文短文本分类算法[J]. 计算机工程与应用, 2021, 57(6): 94-100.
[5]	郑诚，董春阳，黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
[6]	贺文亮，朱敏玲. 胶囊神经网络研究现状与未来的浅析[J]. 计算机工程与应用, 2021, 57(3): 33-43.
[7]	滕金保，孔韦韦，田乔鑫，王照乾，李龙. 基于CNN和LSTM的多通道注意力机制文本分类模型[J]. 计算机工程与应用, 2021, 57(23): 154-162.
[8]	武书钊，李功权，卜明伟. 基于知识图谱的自杀倾向检测问答系统构建[J]. 计算机工程与应用, 2021, 57(22): 304-312.
[9]	林炜星，王宇嘉，陈万芬，梁海娜. 基于多因子粒子群的高维数据特征选择算法[J]. 计算机工程与应用, 2021, 57(22): 199-207.
[10]	李珑珠，林耀进，吕彦，卢舜，王晨曦. 利用邻域信息交互的在线流特征选择算法[J]. 计算机工程与应用, 2021, 57(21): 102-108.
[11]	陈倩茹，李雅丽，许科全，刘铱龙，王淑琴. 自调优自适应遗传算法的WKNN特征选择方法[J]. 计算机工程与应用, 2021, 57(20): 164-171.
[12]	李铁飞，生龙，吴迪. BERT-TECNN模型的文本分类方法研究[J]. 计算机工程与应用, 2021, 57(18): 186-193.
[13]	武炜杰，张景祥. 融合分类信息的随机森林特征选择算法及应用[J]. 计算机工程与应用, 2021, 57(17): 147-156.
[14]	丁勇，程家桥，蒋翠清，王钊. 基于主题和关键词特征的比较文本分类方法[J]. 计算机工程与应用, 2021, 57(17): 196-202.
[15]	滕金保，孔韦韦，田乔鑫，王照乾. 基于LSTM-Attention与CNN混合模型的文本分类方法[J]. 计算机工程与应用, 2021, 57(14): 126-133.

基于类信息的文本特征选择与加权算法研究

Research on algorithm of text feature selection and weighting based on category

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics