面向多形式维文的敏感信息过滤算法研究

doi:10.3778/j.issn.1002-8331.1901-0195

计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (10): 127-133.DOI: 10.3778/j.issn.1002-8331.1901-0195

面向多形式维文的敏感信息过滤算法研究

依不拉音·吾斯曼，郭文强，于凯

新疆财经大学计算机科学与工程学院，乌鲁木齐 830012

出版日期:2020-05-15 发布日期:2020-05-13

Research on Filtering Algorithm for Senstive Information in Multi-form Uyghur

Yibulayin·Wusiman, GUO Wenqiang, YU Kai

School of Computer Science and Engineering, Xinjiang University of Finance and Economics, Urumqi 830012, China

Online:2020-05-15 Published:2020-05-13

摘要/Abstract

摘要：

现有的维文敏感信息检测与过滤研究只限于传统维文，而现在互联网上的维文使用呈现传统维文和拉丁维文共存的“一语双文”特点，因此，研究多形式维文的敏感信息过滤算法对新疆的网络安全及社会稳定和长治久安总目标的实现有重要的实际意义。研究拉丁维文和传统维文的Unicode编码特征，提出它们间的编码转换算法ULTC（Uyghur Latin Traditional Conversion），通过该算法在已有的语料库中添加拉丁维文敏感信息语料，从而构建多形式维文敏感信息语料库ULSC（Uyghur Latin Sensitive Corpus）；在语料库的基础上构建传统维文和拉丁维文一体化的多形式维文敏感信息决策树LUDT（Latin Uyghur Decision Tree），在决策树的基础上提出多形式维文敏感信息过滤算法USF（Uyghur Sensitive Information Filter）。实验结果表明，USF算法具有较高的查全率。

关键词: 传统维文, 拉丁维文, 敏感信息, 决策树

Abstract:

The existing research on Uyghur sensitive information detection and filtering is limited to traditional Uyghur. Now Uyghur on the Internet uses the “one-word double-text” feature of traditional Uyghur and Latin Uyghur. The sensitive information filtering algorithm of the text realizes the filtering of the sensitive information of traditional Uyghur and Latin Uyghur, which has important practical significance for the network security and social stability of Xinjiang and the realization of the overall goal of lasting stability. The coding rules of Latin Uyghur and traditional Uyghur are studied by putting forward the ULTC（Uyghur Latin Traditional Conversion）, which is a code conversion algorithm between them. By adding the Latin Uyghur sensitive information corpora to the existing traditional Uyghur sensitive information corpora, a multi-form Uyghur sensitive information corpus is constructed. Based on the corpus of ULSC（Uyghur Latin Sensitive Corpus）, a method for calculating the multi-form Uyghur sensitive values is proposed, and a multi-form Uyghur sensitive information decision tree LUDT（Latin Uyghur Decision Tree） that integrates traditional Uyghur and Latin Uyghur is constructed. Based on LUDT, the multi-form Uyghur Sensitive Information Filtering（USF） algorithm is proposed. Experimental results show that the USF algorithm has a high recall rate.

Key words: traditional Uyghur, Latin Uyghur, sensitive information, decision tree

依不拉音·吾斯曼，郭文强，于凯. 面向多形式维文的敏感信息过滤算法研究[J]. 计算机工程与应用, 2020, 56(10): 127-133.

Yibulayin·Wusiman, GUO Wenqiang, YU Kai. Research on Filtering Algorithm for Senstive Information in Multi-form Uyghur[J]. Computer Engineering and Applications, 2020, 56(10): 127-133.

[1]	张敏，彭红伟，颜晓玲. 基于神经网络的模糊决策树改进算法[J]. 计算机工程与应用, 2021, 57(21): 174-179.
[2]	谭正华，戴立平，文阳，李国泰. 基于约简属性和阈值分割的决策树构建方法[J]. 计算机工程与应用, 2020, 56(22): 160-165.
[3]	刘聪，王永利，周子韬，犹锋，张才俊. 结合触发事件及词性分析的敏感信息识别方法[J]. 计算机工程与应用, 2020, 56(20): 132-137.
[4]	陈景霞，郝为，张鹏伟，谢佳. RSVP与SSVEP混合脑电信号刺激与多类事件检测[J]. 计算机工程与应用, 2020, 56(15): 132-139.
[5]	王丽苗，许青林，姜文超，符基高. 集成FM的短视频喜好率预测模型[J]. 计算机工程与应用, 2020, 56(14): 118-122.
[6]	苏翀，任曈，王国品，殷杰. 利用决策树建立慢性阻塞性肺病中医诊断模型[J]. 计算机工程与应用, 2019, 55(3): 225-230.
[7]	王玉源，徐杰，吉卫喜. 基于监督式机器学习的零件几何特征智能识别[J]. 计算机工程与应用, 2019, 55(22): 225-230.
[8]	刘俊杰，王珺，王梦林，王悦. SDN中基于C4.5决策树的DDoS攻击检测[J]. 计算机工程与应用, 2019, 55(20): 84-88.
[9]	王燕，郭元凯. 改进的XGBoost模型在股票预测中的应用[J]. 计算机工程与应用, 2019, 55(20): 202-207.
[10]	曹卫东1，2，许代代2，王静2，王家亮2. 民航NOSHOW预测及强因子关联分析[J]. 计算机工程与应用, 2019, 55(2): 221-227.
[11]	赵攀1，袁杰1，王宏伟1，2，米汤1. 基于决策树的羽流追踪机器人自主决策方法研究[J]. 计算机工程与应用, 2019, 55(14): 254-259.
[12]	安葳鹏，尚家泽. 决策树C4.5算法的改进与分析[J]. 计算机工程与应用, 2019, 55(12): 169-173.
[13]	潘杰1，渡边政彦2，周宽久1，梁浩然1，崔凯1. 嵌入式软件形式化建模方法[J]. 计算机工程与应用, 2018, 54(8): 61-71.
[14]	汪良楠，肖迪. 基于CCS优化的FDT集成分类算法研究[J]. 计算机工程与应用, 2018, 54(5): 127-131.
[15]	薛朋强，鲜英，努尔布力，吾守尔·斯拉木. 面向维吾尔文的敏感信息过滤方法研究[J]. 计算机工程与应用, 2018, 54(5): 236-241.

面向多形式维文的敏感信息过滤算法研究

Research on Filtering Algorithm for Senstive Information in Multi-form Uyghur

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics