计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (35): 158-160.
姑丽加玛丽·麦麦提艾力1,艾斯卡尔·肉孜2,艾斯卡尔·艾木都拉1
Guljamal Mamateli1,Askar Rozi2,Askar Hamdulla1
摘要: 维吾尔语中存在的形同音不同单词(多音词)的正确发音是影响合成系统可懂读的重要原因之一。维吾尔语单词由词根和词缀构成,虽然多音词词根数量不多,但多音词词根连接各种词缀则构成了大量的多音词。将维吾尔语中经常用错的16个多音词词根作为研究对象,以多音词的不同特点为出发点,采取不同的规则,结合最大熵模型方法来处理不符规则的多音词,同时用似然比方法选取关键词,并用贪婪算法选择最佳特征模板。经过性能测试,该算法多音词消歧平均准确率达到87.7%。