计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (3): 216-221.
阿力木江·艾沙1,3,库尔班·吾布力2,3,吐尔根·依布拉音2,3
Alimjan AYSA1,3, Kurban UBUL2,3, Turgun IBRAHIM2,3
摘要: 文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。