维吾尔语多词表达抽取方法研究

计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (8): 26-30.

维吾尔语多词表达抽取方法研究

麦热哈巴·艾力1，2，阿孜古丽·夏力甫3，吐尔根·依布拉音1，2

1.新疆大学信息科学与工程学院，乌鲁木齐 830046
2.新疆多语种信息技术重点实验室，乌鲁木齐 830046
3.新疆大学人文学院，乌鲁木齐 830046

出版日期:2014-04-15 发布日期:2014-05-30

Research on extracting methods of multi word expression in Uyghur texts

Mairehaba Aili1，2, Aziguli Xialifu3, Tuergen Yibulayin1，2

1.School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China
2.Xinjiang Laboratory of Multi-Language Information Technology, Urumqi 830046, China
3.School of Humanity, Xinjiang University, Urumqi 830046, China

Online:2014-04-15 Published:2014-05-30

摘要/Abstract

摘要： 多词表达是特殊的语言现象，一般由多个词构成来表示一个意义，语料中常出现在一起。多词表达因是特殊的单元，其抽取在自然语言处理的很多领域有着非常重要的作用。讨论了目前常见的三种统计方法即互信息、对数似然比以及卡方等在维吾尔语多词表达抽取方面的影响。根据维吾尔语的特点，将词干作为一项特征加到抽取方法中。语料的选择上考虑了覆盖面及领域，并探讨了它们对抽取方法的影响。

关键词: 多词表达, 互信息, 对数似然比, 卡方, 维吾尔语

Abstract: Multi word expression is a special language phenomenon, which is combination of words. As a block of meaning, multi word expression appears together more often than by chance. They play more important role in natural language processing applications. In this study, it explores the effect of three more used statistical methods on extracting multi word expression in Uyghur texts. The three methods contain mutual information, log-likelihood and chi-square. According to the characteristics of Uighur, it adds stemmed form of words as features of extraction methods. On the choosing corpus, it considers the coverage and field, and explores its effect on extraction methods.

Key words: collocation, mutual information, log-likelihood, chi-square, Uyghur

麦热哈巴·艾力1，2，阿孜古丽·夏力甫3，吐尔根·依布拉音1，2. 维吾尔语多词表达抽取方法研究[J]. 计算机工程与应用, 2014, 50(8): 26-30.

Mairehaba Aili1，2, Aziguli Xialifu3, Tuergen Yibulayin1，2. Research on extracting methods of multi word expression in Uyghur texts[J]. Computer Engineering and Applications, 2014, 50(8): 26-30.

[1]	李俊丽. Spark平台下类别数据互信息计算的并行化[J]. 计算机工程与应用, 2021, 57(7): 95-100.
[2]	李珑珠，林耀进，吕彦，卢舜，王晨曦. 利用邻域信息交互的在线流特征选择算法[J]. 计算机工程与应用, 2021, 57(21): 102-108.
[3]	刘畅，阿布都克力木·阿布力孜，姚登峰，哈里旦木·阿布都克里木. 维吾尔语形态分析研究综述[J]. 计算机工程与应用, 2021, 57(15): 42-61.
[4]	邱云飞，高华聪. 混合Filter与改进自适应GA的特征选择方法[J]. 计算机工程与应用, 2021, 57(11): 95-102.
[5]	陈建促，王越，朱小飞，李章宇，林志航. 融合多特征图的野生动物视频目标检测方法[J]. 计算机工程与应用, 2020, 56(7): 221-227.
[6]	谢心蕊，雷秀仁，赵岩. MI和改进PCA的降维算法在股价预测中的应用[J]. 计算机工程与应用, 2020, 56(21): 139-144.
[7]	曾安，王烈基，潘丹，黄殷. 基于FCN和互信息的医学图像配准技术研究[J]. 计算机工程与应用, 2020, 56(18): 202-208.
[8]	刘永芳，郝晓燕，刘荣. 中国英语新词语料库构建技术研究[J]. 计算机工程与应用, 2020, 56(16): 165-168.
[9]	贺军义，杨丰，安葳鹏，尚家泽. 基于IGGIII方案的自适应渐消卡尔曼滤波器[J]. 计算机工程与应用, 2020, 56(14): 52-56.
[10]	阿里甫·库尔班1，艾山江·亚生2，张丹丹2. 维吾尔语KP_V句型的文法手语编辑系统的设计[J]. 计算机工程与应用, 2019, 55(7): 248-252.
[11]	张晓琴，刘莉楠. 基于亲密度和吸引力的二分网络社区发现算法[J]. 计算机工程与应用, 2019, 55(23): 170-176.
[12]	帕丽旦·木合塔尔，吾守尔·斯拉木，买买提阿依甫，努尔麦麦提·尤鲁瓦斯. RNN编码器-解码器在维汉机器翻译中的应用[J]. 计算机工程与应用, 2018, 54(15): 235-240.
[13]	朱琼琼1，李平1，杨程1，2，胡检华1. 自适应AP选择无线室内定位算法[J]. 计算机工程与应用, 2018, 54(14): 120-126.
[14]	洪征，田益凡，张洪泽，吴礼发. 基于扩展前缀树的协议格式推断方法[J]. 计算机工程与应用, 2018, 54(12): 14-20.
[15]	杨靖，彭国华. 低帧率周期运动视频超分辨率重建方法[J]. 计算机工程与应用, 2017, 53(8): 174-179.