改进信息增益的维吾尔文特征选择方法

doi:10.3778/j.issn.1002-8331.1607-0312

计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (23): 34-38.DOI: 10.3778/j.issn.1002-8331.1607-0312

改进信息增益的维吾尔文特征选择方法

韩军兵，哈力旦·阿布都热依木，古力努尔·艾尔肯，何燕

新疆大学电气工程学院，乌鲁木齐 830047

出版日期:2017-12-01 发布日期:2017-12-14

Improved information gain algorithm based on Uyghur feature selection

HAN Junbing, Halidan·Abudureyimu, Gulnur·Arken, HE Yan

College of Electrical Engineering, Xinjiang University, Urumqi 830047, China

Online:2017-12-01 Published:2017-12-14

摘要/Abstract

摘要： 特征选择是维吾尔语文本分类的关键技术，对分类结果将产生直接的影响。为了提高传统信息增益在维吾尔文特征选择中的效果，在深度分析维吾尔文语种特点的基础上，提出了一种新的信息增益特征选择方法。该方法结合类词频和特征分布系数以及倒逆文档频率，对传统信息增益进行修正；引入一个备选特征分布系数来平衡类间选取的特征个数；在维吾尔文数据集上实验验证。实验结果表明，改进的算法对维吾尔文分类效果有明显的提高。

关键词: 文本分类, 信息增益, 类词频, 倒逆转文档频率, 特征选择

Abstract: Feature selection is the key step of Uyghur text classification, which causes direct effect on the categorization results. To improve the effect of traditional information gain algorithm on the Uyghur feature selection, a new information gain feature selection method is proposed on the basis of deep?analysis of Uyghur text feature. This method combines with word frequency in class, characteristics of the distribution coefficient and inverse document frequency, thus traditional information gain is modified. Furthermore, it introduces an alternative features of distribution coefficient to balance the selected number between the classes. Finally, ?experimental verification?is conducted on Uyghur text dataset. The results show that modified information gain algorithm has greatly improved the effect of Uyghur text classification.

Key words: text classification, information gain, word frequency in class, inverse document frequency, feature selection

韩军兵，哈力旦·阿布都热依木，古力努尔·艾尔肯，何燕. 改进信息增益的维吾尔文特征选择方法[J]. 计算机工程与应用, 2017, 53(23): 34-38.

HAN Junbing, Halidan·Abudureyimu, Gulnur·Arken, HE Yan. Improved information gain algorithm based on Uyghur feature selection[J]. Computer Engineering and Applications, 2017, 53(23): 34-38.

[1]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[2]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[3]	李静星，杨有龙. 针对高维数据的马尔科夫毯特征选择[J]. 计算机工程与应用, 2021, 57(6): 58-66.
[4]	黄金杰，蔺江全，何勇军，何瑾洁，王雅君. 局部语义与上下文关系的中文短文本分类算法[J]. 计算机工程与应用, 2021, 57(6): 94-100.
[5]	郑诚，董春阳，黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
[6]	贺文亮，朱敏玲. 胶囊神经网络研究现状与未来的浅析[J]. 计算机工程与应用, 2021, 57(3): 33-43.
[7]	滕金保，孔韦韦，田乔鑫，王照乾，李龙. 基于CNN和LSTM的多通道注意力机制文本分类模型[J]. 计算机工程与应用, 2021, 57(23): 154-162.
[8]	武书钊，李功权，卜明伟. 基于知识图谱的自杀倾向检测问答系统构建[J]. 计算机工程与应用, 2021, 57(22): 304-312.
[9]	林炜星，王宇嘉，陈万芬，梁海娜. 基于多因子粒子群的高维数据特征选择算法[J]. 计算机工程与应用, 2021, 57(22): 199-207.
[10]	李珑珠，林耀进，吕彦，卢舜，王晨曦. 利用邻域信息交互的在线流特征选择算法[J]. 计算机工程与应用, 2021, 57(21): 102-108.
[11]	陈倩茹，李雅丽，许科全，刘铱龙，王淑琴. 自调优自适应遗传算法的WKNN特征选择方法[J]. 计算机工程与应用, 2021, 57(20): 164-171.
[12]	李铁飞，生龙，吴迪. BERT-TECNN模型的文本分类方法研究[J]. 计算机工程与应用, 2021, 57(18): 186-193.
[13]	丁勇，程家桥，蒋翠清，王钊. 基于主题和关键词特征的比较文本分类方法[J]. 计算机工程与应用, 2021, 57(17): 196-202.
[14]	武炜杰，张景祥. 融合分类信息的随机森林特征选择算法及应用[J]. 计算机工程与应用, 2021, 57(17): 147-156.
[15]	杨信民，董红斌，谭成予，周雯. 采用奇异值分解和信息增益的树突状细胞模型[J]. 计算机工程与应用, 2021, 57(15): 156-162.

改进信息增益的维吾尔文特征选择方法

Improved information gain algorithm based on Uyghur feature selection

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics