计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (23): 34-38.DOI: 10.3778/j.issn.1002-8331.1607-0312
韩军兵,哈力旦·阿布都热依木,古力努尔·艾尔肯,何 燕
HAN Junbing, Halidan·Abudureyimu, Gulnur·Arken, HE Yan
摘要: 特征选择是维吾尔语文本分类的关键技术,对分类结果将产生直接的影响。为了提高传统信息增益在维吾尔文特征选择中的效果,在深度分析维吾尔文语种特点的基础上,提出了一种新的信息增益特征选择方法。该方法结合类词频和特征分布系数以及倒逆文档频率,对传统信息增益进行修正;引入一个备选特征分布系数来平衡类间选取的特征个数;在维吾尔文数据集上实验验证。实验结果表明,改进的算法对维吾尔文分类效果有明显的提高。