计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (13): 233-235.DOI: 10.3778/j.issn.1002-8331.2010.13.069
李永宏1,于洪志1,孔江平2
1.西北民族大学 中国民族语言文字信息技术重点实验室,兰州 730030
2.北京大学 中文系汉语语言学研究中心,北京 100871
LI Yong-hong1,YU Hong-zhi1,KONG Jiang-ping2
1.Key Lab of China’s National Linguistic Information Technology,Northwest University for Nationalities,Lanzhou 730030,China
2.Department of Chinese Language and Literature,Peking University,Beijing 100871,China
摘要: 以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。
中图分类号: