计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (36): 147-150.

• 数据库、信号与信息处理 • 上一篇    下一篇

维吾尔语情感分类算法

田生伟1,禹 龙 2,王宇光1   

  1. 1.新疆大学 软件学院,乌鲁木齐 830008
    2.新疆大学 网络中心,乌鲁木齐 830046
  • 收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2011-12-21 发布日期:2011-12-21

Research on sentiment classification of Uighur reviews

TIAN Shengwei1,YU Long2,WANG Yuguang1   

  1. 1.School of Software,Xinjiang University,Urumqi 830008,China
    2.Network Center,Xinjiang University,Urumqi 830046,China
  • Received:1900-01-01 Revised:1900-01-01 Online:2011-12-21 Published:2011-12-21

摘要: 情感分类是一项具有实用价值的分类技术。目前英语和汉语的情感分类的研究比较多,而针对维吾尔语的研究较少。以n-gram模型作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,选择不同的特征数量,以Naǐve Bayes、ME(最大熵)和SVM(支持向量机)作为不同的文本分类方法,分别进行了维吾尔语情感分类实验,并对实验结果进行了比较,结果表明:采用UniGrams特征表示方法、在5 000个特征数量和合适的特征选择函数,ME和SVM对维吾尔语情感分类能取得较好的效果。

关键词: 维吾尔语, 情感分类, 语言模型

Abstract: Sentiment classification is an applied technology.Up to now,most researches of sentiment classification are on English and Chinese reviews,little work has been done on Uighur reviews.This paper chooses n-gram model as a text representation,mutual information,information gain,CHI statistics and document frequency as different feature selection methods,selects the number of different characteristics to Naǐve Bayes,ME(Maximum Entropy) and SVM(Support Vector Machine) as different text classification methods respectively.Experiments are carried out,and the experimental results show that sentiment classification obtains high performance,when using Unigrams representation,5 000 features,ME or SVM classifier.

Key words: Uighur, sentiment classification, language model