利用地名用字分析的中文地名识别处理

doi:10.3778/j.issn.1002-8331.2009.28.069

计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (28): 230-232.DOI: 10.3778/j.issn.1002-8331.2009.28.069

利用地名用字分析的中文地名识别处理

李诺^1，2，张全²

1.中国科学院研究生院，北京 100039
2.中国科学院声学研究所，北京 100190

收稿日期:2008-06-02 修回日期:2008-09-12 出版日期:2009-10-01 发布日期:2009-10-01
通讯作者: 李诺

Chinese place name identification with Chinese characters features

LI Nuo^1，2，ZHANG Quan²

1.Graduate University of Chinese Academy of Sciences，Beijing 100039，China
2.Institute of Acoustics，Chinese Academy of Sciences，Beijing 100190，China

Received:2008-06-02 Revised:2008-09-12 Online:2009-10-01 Published:2009-10-01
Contact: LI Nuo

摘要/Abstract

摘要： 对中文地名未登录词识别而言，首先充分挖掘地名用字本身的特征，及其上下文用字的特征，其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时，通过对中文地名这个特定群体进行针对性分析，得到了更多的信息，如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。

关键词: 中文地名识别, 地名用字分析, 最大熵

Abstract: This paper extracts the features from the Chinese place names and their context firstly，and then aggregates differernt features from different sources.Before setting feature functions，more information has been received by analyzing the Chinese characters features.This paper focuses on characters which are used frequently and how these characters matching with each other.Finally，it achieves an acceptable result by open test on real corpus.

Key words: placename recognition, analysis of placename, maximum entropy

中图分类号:

TP391

李诺^1，2，张全². 利用地名用字分析的中文地名识别处理[J]. 计算机工程与应用, 2009, 45(28): 230-232.

LI Nuo^1，2，ZHANG Quan². Chinese place name identification with Chinese characters features[J]. Computer Engineering and Applications, 2009, 45(28): 230-232.

[1]	周婉莹，马盈仓，续秋霞，郑毅. 最大熵和[l2,0]范数约束的无监督特征选择算法[J]. 计算机工程与应用, 2020, 56(11): 51-59.
[2]	陈建平，陈其强，傅启明，高振，吴宏杰，陆悠. 基于生成对抗网络的最大熵逆强化学习[J]. 计算机工程与应用, 2019, 55(22): 119-126.
[3]	夏吾吉1，2，华却才让1. 基于混合策略的藏文人称代词指代消解研究[J]. 计算机工程与应用, 2018, 54(7): 66-69.
[4]	邵良杉1，赵琳琳1，温廷新2，孔祥博2. 基于区间直觉模糊数的双向投影决策模型[J]. 计算机工程与应用, 2017, 53(1): 83-86.
[5]	刘颖，王楠. 最大熵模型和BP神经网络的短句对齐比较[J]. 计算机工程与应用, 2015, 51(7): 112-117.
[6]	古丽扎达·海沙1，古丽拉·阿东别克2，3. 哈萨克语动词短语自动识别研究与实现[J]. 计算机工程与应用, 2015, 51(2): 218-223.
[7]	谷晶晶，周国栋. 基于分词与词性标注的汉语逗号自动分类[J]. 计算机工程与应用, 2015, 51(18): 120-125.
[8]	吴鹏. 萤火虫算法优化最大熵的图像分割方法[J]. 计算机工程与应用, 2014, 50(12): 115-119.
[9]	汪国强，曲晶莹. 改进分水岭医学图像分割方法的研究[J]. 计算机工程与应用, 2013, 49(8): 185-187.
[10]	郑丽，吕学强. 搜索引擎日志中“N+V+N”、“V+N+N”型短语识别[J]. 计算机工程与应用, 2013, 49(6): 143-147.
[11]	桑海岩1，2，古丽拉·阿东别克1，2，牛宁宁1，2. 基于最大熵的哈萨克语词性标注模型[J]. 计算机工程与应用, 2013, 49(11): 126-129.
[12]	姑丽加玛丽·麦麦提艾力1，艾斯卡尔·肉孜2，艾斯卡尔·艾木都拉1. 维吾尔语多音词消歧混合方法[J]. 计算机工程与应用, 2011, 47(35): 158-160.
[13]	张新娟，雷秀娟. 改进PSO算法在二维最佳阈值图像分割中的应用[J]. 计算机工程与应用, 2011, 47(26): 207-209.
[14]	刘方舟1，陶建华2. 语调短语预测中的特征模板自动生成[J]. 计算机工程与应用, 2011, 47(16): 19-21.
[15]	赵敏1，张路1，孙棣华1，阳树洪2. 模糊Renyi熵与QGA结合的快速图像分割[J]. 计算机工程与应用, 2011, 47(16): 172-175.

利用地名用字分析的中文地名识别处理

Chinese place name identification with Chinese characters features

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics