计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (8): 26-30.
麦热哈巴·艾力1,2,阿孜古丽·夏力甫3,吐尔根·依布拉音1,2
Mairehaba Aili1,2, Aziguli Xialifu3, Tuergen Yibulayin1,2
摘要: 多词表达是特殊的语言现象,一般由多个词构成来表示一个意义,语料中常出现在一起。多词表达因是特殊的单元,其抽取在自然语言处理的很多领域有着非常重要的作用。讨论了目前常见的三种统计方法即互信息、对数似然比以及卡方等在维吾尔语多词表达抽取方面的影响。根据维吾尔语的特点,将词干作为一项特征加到抽取方法中。语料的选择上考虑了覆盖面及领域,并探讨了它们对抽取方法的影响。