计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (32): 137-139.DOI: 10.3778/j.issn.1002-8331.2008.32.041
朱 冲1,王大为2,3,张向利1
ZHU Chong1,WANG Da-wei2,3,ZHANG Xiang-li1
摘要: 提出了一个汉语基本短语分析模型,将汉语短语的边界划分和短语标识分开,假定这两个过程相互独立,采用最大熵方法分别建立模型解决。最大熵模型的关键是如何选取有效的特征,文中给出了两个步骤相关的特征空间以及特征选择过程和算法。实验表明,模型的短语定界精确率达到95.27%,标注精确率达到96.2%。