基于机器学习的维吾尔文文本分类研究

计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (5): 110-112.

• 数据库、信号与信息处理 • 上一篇下一篇

基于机器学习的维吾尔文文本分类研究

阿力木江·艾沙1，2，吐尔根·依布拉音2，艾山·吾买尔2，马尔哈巴·艾力2

1.新疆大学现代教育技术中心，乌鲁木齐 830046
2.新疆大学信息科学与工程学院，乌鲁木齐 830046

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2012-02-11 发布日期:2012-02-11

Machine learning based Uyghur language text categorization

Alimjan AYSA1，2, Turgun IBRAHIM2, Hasan OMAR2, Marhaba ALI2

1.Modern Education Technology Center, Xinjiang University, Urumqi 830046, China
2.College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China

Received:1900-01-01 Revised:1900-01-01 Online:2012-02-11 Published:2012-02-11

摘要/Abstract

摘要： 随着Internet上维吾尔文信息的迅速发展，维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法，针对维吾尔文文本在向量空间模型（VSM）表示下的高维性，采用词干提取和IG相结合的方法对表示空间进行降维。采用基于机器学习的分类算法（kNN和Na?ve Bayes）对维吾尔文文本语料进行了分类实验并分析了实验结果。

关键词: 文本分类, 朴素贝叶斯方法, k-最近邻方法（kNN）, 维吾尔语, 特征选择

Abstract: With the rapid increase of Uyghur language text information on the Internet, Uyghur language text categorization has become a key technique for processing and organizing these text data. As to the high dimensionality of Uyghur language texts under vector space model representation, the stemming technique is used along with IG to reduce the dimensionality. The categorization experiments are performed using machine learning based text categorization algorithms such as Na?ve Bayes and kNN on Uyghur language text corpus and the experimental results are analyzed.

Key words: text categorization, Na?ve Bayes, k-Nearest Neighbor（kNN）, Uyghur language, feature selection

阿力木江·艾沙1，2，吐尔根·依布拉音2，艾山·吾买尔2，马尔哈巴·艾力2. 基于机器学习的维吾尔文文本分类研究[J]. 计算机工程与应用, 2012, 48(5): 110-112.

Alimjan AYSA1，2, Turgun IBRAHIM2, Hasan OMAR2, Marhaba ALI2. Machine learning based Uyghur language text categorization[J]. Computer Engineering and Applications, 2012, 48(5): 110-112.

[1]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[2]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[3]	李静星，杨有龙. 针对高维数据的马尔科夫毯特征选择[J]. 计算机工程与应用, 2021, 57(6): 58-66.
[4]	黄金杰，蔺江全，何勇军，何瑾洁，王雅君. 局部语义与上下文关系的中文短文本分类算法[J]. 计算机工程与应用, 2021, 57(6): 94-100.
[5]	郑诚，董春阳，黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
[6]	贺文亮，朱敏玲. 胶囊神经网络研究现状与未来的浅析[J]. 计算机工程与应用, 2021, 57(3): 33-43.
[7]	滕金保，孔韦韦，田乔鑫，王照乾，李龙. 基于CNN和LSTM的多通道注意力机制文本分类模型[J]. 计算机工程与应用, 2021, 57(23): 154-162.
[8]	武书钊，李功权，卜明伟. 基于知识图谱的自杀倾向检测问答系统构建[J]. 计算机工程与应用, 2021, 57(22): 304-312.
[9]	林炜星，王宇嘉，陈万芬，梁海娜. 基于多因子粒子群的高维数据特征选择算法[J]. 计算机工程与应用, 2021, 57(22): 199-207.
[10]	李珑珠，林耀进，吕彦，卢舜，王晨曦. 利用邻域信息交互的在线流特征选择算法[J]. 计算机工程与应用, 2021, 57(21): 102-108.
[11]	陈倩茹，李雅丽，许科全，刘铱龙，王淑琴. 自调优自适应遗传算法的WKNN特征选择方法[J]. 计算机工程与应用, 2021, 57(20): 164-171.
[12]	李铁飞，生龙，吴迪. BERT-TECNN模型的文本分类方法研究[J]. 计算机工程与应用, 2021, 57(18): 186-193.
[13]	武炜杰，张景祥. 融合分类信息的随机森林特征选择算法及应用[J]. 计算机工程与应用, 2021, 57(17): 147-156.
[14]	丁勇，程家桥，蒋翠清，王钊. 基于主题和关键词特征的比较文本分类方法[J]. 计算机工程与应用, 2021, 57(17): 196-202.
[15]	刘畅，阿布都克力木·阿布力孜，姚登峰，哈里旦木·阿布都克里木. 维吾尔语形态分析研究综述[J]. 计算机工程与应用, 2021, 57(15): 42-61.

基于机器学习的维吾尔文文本分类研究

Machine learning based Uyghur language text categorization

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics