一种不良文本识别特征选择方法

doi:10.3778/j.issn.1002-8331.2010.02.039

计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (2): 129-131.DOI: 10.3778/j.issn.1002-8331.2010.02.039

• 数据库、信号与信息处理 • 上一篇下一篇

一种不良文本识别特征选择方法

张永奎^1，2，高峰¹

1.山西大学计算机与信息技术学院，太原 030006
2.计算智能与中文信息处理教育部重点实验室，太原 030006

收稿日期:2008-07-29 修回日期:2008-10-20 出版日期:2010-01-11 发布日期:2010-01-11
通讯作者: 张永奎

Feature selection for illegitimate contents recognition

ZHANG Yong-kui^1，2，GAO Feng¹

1.Faculty of Computer & Information Technology，Shanxi University，Taiyuan 030006，China
2.Key Laboratory of Ministry of Education for Computation Intelligence and Chinese Information Processing，Taiyuan 030006，China

Received:2008-07-29 Revised:2008-10-20 Online:2010-01-11 Published:2010-01-11
Contact: ZHANG Yong-kui

摘要/Abstract

摘要： 针对不良文本的特殊性，提出一种两步特征选择方法。首先对训练文本用有限自动机识别其中的特殊词作为特征加入特征集，同时将原文还原为不含特殊词的文本。对还原后文本用“组合特征选择方法”选择特征加入特征集。实验结果表明利用两步特征选择方法能有效提高非法文本识别精度。

关键词: 特殊词, 有限自动机, 特征选择, 不良文本识别

Abstract: To describe a two-steps fearture selection method.Firstly，recognise all the special words from the training texts by finite accepter and add it to the final feature set，recover the original text as well.Then select features from the processed texts and add them to the feature set by the way of‘conbination feature selection method’.The experiment result shows that it can improve the precision of the illegitimate contents recognition

Key words: special words, finite accepter, feature selection, illegitimate contents recognition

中图分类号:

TP391

张永奎^1，2，高峰¹. 一种不良文本识别特征选择方法[J]. 计算机工程与应用, 2010, 46(2): 129-131.

ZHANG Yong-kui^1，2，GAO Feng¹. Feature selection for illegitimate contents recognition[J]. Computer Engineering and Applications, 2010, 46(2): 129-131.

[1]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[2]	李静星，杨有龙. 针对高维数据的马尔科夫毯特征选择[J]. 计算机工程与应用, 2021, 57(6): 58-66.
[3]	林炜星，王宇嘉，陈万芬，梁海娜. 基于多因子粒子群的高维数据特征选择算法[J]. 计算机工程与应用, 2021, 57(22): 199-207.
[4]	李珑珠，林耀进，吕彦，卢舜，王晨曦. 利用邻域信息交互的在线流特征选择算法[J]. 计算机工程与应用, 2021, 57(21): 102-108.
[5]	陈倩茹，李雅丽，许科全，刘铱龙，王淑琴. 自调优自适应遗传算法的WKNN特征选择方法[J]. 计算机工程与应用, 2021, 57(20): 164-171.
[6]	武炜杰，张景祥. 融合分类信息的随机森林特征选择算法及应用[J]. 计算机工程与应用, 2021, 57(17): 147-156.
[7]	邱云飞，高华聪. 混合Filter与改进自适应GA的特征选择方法[J]. 计算机工程与应用, 2021, 57(11): 95-102.
[8]	霍林，陆寅丽. 改进粒子群算法应用于Android恶意应用检测[J]. 计算机工程与应用, 2020, 56(7): 96-101.
[9]	廖文雄，曾碧，梁天恺，徐雅芸，赵俊峰. 面向高维数据的个人信贷风险评估方法[J]. 计算机工程与应用, 2020, 56(4): 219-224.
[10]	彭明，张海澎. 基于Schatten-p范数和特征自表示的无监督特征选择[J]. 计算机工程与应用, 2020, 56(23): 45-52.
[11]	刘峰，Godfred Kim Mensah，李欣芸，刘鸿丽，李瑶，郭浩. 不确定脑网络的异常拓扑分析及分类研究[J]. 计算机工程与应用, 2020, 56(2): 127-132.
[12]	岳鹏，侯凌燕，杨大利，佟强. 基于XGBoost特征选择的疾病诊断XLC-Stacking方法[J]. 计算机工程与应用, 2020, 56(17): 136-141.
[13]	黄欣，莫海淼，赵志刚，曾敏. 离散型增强烟花算法和[kNN]在特征选择中的研究[J]. 计算机工程与应用, 2020, 56(16): 112-117.
[14]	周婉莹，马盈仓，续秋霞，郑毅. 最大熵和[l2,0]范数约束的无监督特征选择算法[J]. 计算机工程与应用, 2020, 56(11): 51-59.
[15]	郭磊，王顺芳. 序列信息融合与两阶段特征选择的膜蛋白预测[J]. 计算机工程与应用, 2019, 55(6): 145-150.

一种不良文本识别特征选择方法

Feature selection for illegitimate contents recognition

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics