基于层次聚类的跨文本中文人名消歧研究

计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (6): 106-111.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

基于层次聚类的跨文本中文人名消歧研究

张菲菲1，李宗海2，周晓辉1，李晓戈1,2

1.西安邮电大学，西安 710121
2.济南中林信息科技有限公司，济南 250100

出版日期:2014-03-15 发布日期:2015-05-12

Cross-document Chinese personal name entity disambiguation based on hierarchical clustering

ZHANG Feifei1, LI Zonghai2, ZHOU Xiaohui1, LI Xiaoge1,2

1.Xi’an University of Posts & Telecommunications, Xi’an 710121, China
2.Jinan Zhonglin Information Technology Co., Ltd, Jinan 250100, China

Online:2014-03-15 Published:2015-05-12

摘要/Abstract

摘要： 人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系，生成实体信息对象（Entity Profile），采用实体信息对象（EP）中的个人信息特征，实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据，着重研究了中文人名消歧特征的选取，参数的确定和验证，在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。

关键词: 人名消歧, 信息抽取, 相似度, 层次聚类

Abstract: Cross-document entity disambiguation is the problem of identifying whether mentions from different documents refer to the same or distinct entities. This paper describes a Chinese information extraction system which involves both document-level IE and corpus-level IE, a pipeline and multi-level modular approach to name entity and Entity Profile extraction. It introduces novel features based on document-level entity profiles and study on the influence of feature selection, parameter selection, parameter validation and analysis on results. Disambiguation is performed based on agglomerative hierarchical clustering using Hadoop. Experiments show that F-measure of training set is 91.33% and testing set is 88.73%, using the whole network news corpus dataset from Harbin Institute of Technology.

Key words: entity disambiguation, information extraction, similarity, hierarchical clustering

张菲菲1，李宗海2，周晓辉1，李晓戈1,2. 基于层次聚类的跨文本中文人名消歧研究[J]. 计算机工程与应用, 2014, 50(6): 106-111.

ZHANG Feifei1, LI Zonghai2, ZHOU Xiaohui1, LI Xiaoge1,2. Cross-document Chinese personal name entity disambiguation based on hierarchical clustering[J]. Computer Engineering and Applications, 2014, 50(6): 106-111.

[1]	张岐山，陈露露. 基于均衡接近度灰关联的Slope One算法[J]. 计算机工程与应用, 2021, 57(9): 96-102.
[2]	王永贵，李倩玉. 基于KNN-GBDT的混合协同过滤推荐算法[J]. 计算机工程与应用, 2021, 57(9): 103-108.
[3]	张晓闻，任勇峰. 结合稀疏表示与拓扑相似性的图像匹配算法[J]. 计算机工程与应用, 2021, 57(8): 198-203.
[4]	张松灿，普杰信，司彦娜，孙力帆. 基于种群相似度的自适应改进蚁群算法及应用[J]. 计算机工程与应用, 2021, 57(8): 70-77.
[5]	杨芳，尹曦，司建辉，刘宏媛，汪雪. 基于侧重点聚类的数学表达式相似度计算方法[J]. 计算机工程与应用, 2021, 57(6): 88-93.
[6]	钱芸芸，杨文忠，姚苗，李海磊，柴亚闯. 融合主题相似度权重的主题社区发现模型[J]. 计算机工程与应用, 2021, 57(5): 107-114.
[7]	王俊玲，卢新明. 基于语义相关的视频关键帧提取算法[J]. 计算机工程与应用, 2021, 57(4): 192-198.
[8]	田维安，陈红梅，周丽华. 基于相似用户好奇心的多样性推荐方法[J]. 计算机工程与应用, 2021, 57(23): 113-121.
[9]	隗昊，周爱，张益嘉，陈飞，屈雯，鲁明羽. 深度学习生物医学实体关系抽取研究综述[J]. 计算机工程与应用, 2021, 57(21): 14-23.
[10]	梁田，曹德欣. 基于莱维飞行的改进简化粒子群算法[J]. 计算机工程与应用, 2021, 57(20): 188-196.
[11]	刘莉. 基于用户多样性偏好的top-N推荐算法[J]. 计算机工程与应用, 2021, 57(17): 116-121.
[12]	杨延娇，赵国涛，王丕栋. 基于语义与情感的句子相似度计算方法[J]. 计算机工程与应用, 2021, 57(16): 151-158.
[13]	赵琪，杜彦辉，芦天亮，沈少禹. 基于Capsule-BiGRU的文本相似度分析算法[J]. 计算机工程与应用, 2021, 57(15): 171-177.
[14]	乔伟涛，黄海燕，王珊. 基于Transformer编码器的语义相似度算法研究[J]. 计算机工程与应用, 2021, 57(14): 158-163.
[15]	张振海，张湘婷. 上下文感知的高铁信息服务推荐方法研究[J]. 计算机工程与应用, 2021, 57(12): 231-236.

基于层次聚类的跨文本中文人名消歧研究

Cross-document Chinese personal name entity disambiguation based on hierarchical clustering

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics