计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (28): 230-232.DOI: 10.3778/j.issn.1002-8331.2009.28.069
李 诺1,2,张 全2
LI Nuo1,2,ZHANG Quan2
摘要: 对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。
中图分类号: