一种用于贝叶斯分类器的文本特征选择方法

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (13): 24-26.

一种用于贝叶斯分类器的文本特征选择方法

陈景年^1,2,黄厚宽¹,田凤占¹,瞿有利¹

1.北京交通大学计算机与信息技术学院，北京 100044
2.山东财政学院信息与计算科学系，济南 250014

收稿日期:2007-12-12 修回日期:2008-01-21 出版日期:2008-05-01 发布日期:2008-05-01
通讯作者: 陈景年

Method of feature selection for text categorization with bayesian classifiers

CHEN Jing-nian^1,2,HUANG Hou-kuan¹,TIAN Feng-zhan¹,QU You-li¹

1.School of Computer and Information Technology，Beijing Jiaotong University，Beijing 100044，China
2.Department of Information and Computing Science，Shandong University of Finance，Ji’nan 250014，China

Received:2007-12-12 Revised:2008-01-21 Online:2008-05-01 Published:2008-05-01
Contact: CHEN Jing-nian

摘要/Abstract

摘要： 特征选择是文本分类中一种重要的文本预处理技术，它能够有效地提高分类器的精度和效率。文本分类中特征选择的关键是寻求有效的特征评价指标。一般来说，同一个特征评价指标对不同的分类器，其效果不同，由此，一个好的特征评价指标应当考虑分类器的特点。由于朴素贝叶斯分类器简单、高效而且对特征选择很敏感，因此，对用于该种分类器的特征选择方法的研究具有重要的意义。有鉴于此，提出了一种有效的用于贝叶斯分类器的多类别文本特征评价指标：CDM。利用贝叶斯分类器在两个多类别的文本数据集上进行了实验。实验结果表明提出的CDM指标具有比其它特征评价指标更好的特征选择效果。

关键词: 文本分类, 特征选择, 文本预处理, 朴素贝叶斯

Abstract: Feature selection is an important preprocessing technology in text classification.It can improve the efficiency and accuracy of a text classifier.The key of feature selection in text classification is to find an effective feature evaluation metric.In general，the effect of a feature evaluation metric for various classifiers can be very different，and thus a good feature evaluation metric should consider classifier characteristics.As the Naïve Bayesian classifier is very simple and efficient and highly sensitive to feature selection，so the research of feature selection specially for it is important.This paper presents a feature evaluation metric for the Naïve Bayesian classifier applied on multi-class text datasets：Class Discriminating Measure（CDM）.Experiments of text classification with Naïve Bayesian classifiers were carried out on two multi-class texts collections.As the results indicate，CDM gains obviously better selecting effect than other feature selection approaches.

Key words: text classification, feature selection, text preprocessing, Naï, ve Bayes

陈景年^1,2,黄厚宽¹,田凤占¹,瞿有利¹. 一种用于贝叶斯分类器的文本特征选择方法[J]. 计算机工程与应用, 2008, 44(13): 24-26.

CHEN Jing-nian^1,2,HUANG Hou-kuan¹,TIAN Feng-zhan¹,QU You-li¹. Method of feature selection for text categorization with bayesian classifiers[J]. Computer Engineering and Applications, 2008, 44(13): 24-26.

[1]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[2]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[3]	李静星，杨有龙. 针对高维数据的马尔科夫毯特征选择[J]. 计算机工程与应用, 2021, 57(6): 58-66.
[4]	黄金杰，蔺江全，何勇军，何瑾洁，王雅君. 局部语义与上下文关系的中文短文本分类算法[J]. 计算机工程与应用, 2021, 57(6): 94-100.
[5]	郑诚，董春阳，黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
[6]	贺文亮，朱敏玲. 胶囊神经网络研究现状与未来的浅析[J]. 计算机工程与应用, 2021, 57(3): 33-43.
[7]	滕金保，孔韦韦，田乔鑫，王照乾，李龙. 基于CNN和LSTM的多通道注意力机制文本分类模型[J]. 计算机工程与应用, 2021, 57(23): 154-162.
[8]	武书钊，李功权，卜明伟. 基于知识图谱的自杀倾向检测问答系统构建[J]. 计算机工程与应用, 2021, 57(22): 304-312.
[9]	林炜星，王宇嘉，陈万芬，梁海娜. 基于多因子粒子群的高维数据特征选择算法[J]. 计算机工程与应用, 2021, 57(22): 199-207.
[10]	李珑珠，林耀进，吕彦，卢舜，王晨曦. 利用邻域信息交互的在线流特征选择算法[J]. 计算机工程与应用, 2021, 57(21): 102-108.
[11]	陈倩茹，李雅丽，许科全，刘铱龙，王淑琴. 自调优自适应遗传算法的WKNN特征选择方法[J]. 计算机工程与应用, 2021, 57(20): 164-171.
[12]	赵宇，祝义，于巧，陈小颖. 基于分层数据筛选的跨项目缺陷预测方法[J]. 计算机工程与应用, 2021, 57(20): 279-286.
[13]	李杰，李苗，袁细国. 面向新一代测序数据的病原微生物检测算法[J]. 计算机工程与应用, 2021, 57(19): 282-289.
[14]	李铁飞，生龙，吴迪. BERT-TECNN模型的文本分类方法研究[J]. 计算机工程与应用, 2021, 57(18): 186-193.
[15]	丁勇，程家桥，蒋翠清，王钊. 基于主题和关键词特征的比较文本分类方法[J]. 计算机工程与应用, 2021, 57(17): 196-202.