计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (10): 127-133.DOI: 10.3778/j.issn.1002-8331.1901-0195
依不拉音·吾斯曼,郭文强,于凯
Yibulayin·Wusiman, GUO Wenqiang, YU Kai
摘要:
现有的维文敏感信息检测与过滤研究只限于传统维文,而现在互联网上的维文使用呈现传统维文和拉丁维文共存的“一语双文”特点,因此,研究多形式维文的敏感信息过滤算法对新疆的网络安全及社会稳定和长治久安总目标的实现有重要的实际意义。研究拉丁维文和传统维文的Unicode编码特征,提出它们间的编码转换算法ULTC(Uyghur Latin Traditional Conversion),通过该算法在已有的语料库中添加拉丁维文敏感信息语料,从而构建多形式维文敏感信息语料库ULSC(Uyghur Latin Sensitive Corpus);在语料库的基础上构建传统维文和拉丁维文一体化的多形式维文敏感信息决策树LUDT(Latin Uyghur Decision Tree),在决策树的基础上提出多形式维文敏感信息过滤算法USF(Uyghur Sensitive Information Filter)。实验结果表明,USF算法具有较高的查全率。