计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (16): 125-134.DOI: 10.3778/j.issn.1002-8331.2205-0383
陈阳,万卫兵
CHEN Yang, WAN Weibing
摘要: 实体链接是知识库问答和知识图谱构建的关键环节,中文语料库的语义表达稀疏,存在大量难以区分的相似实体,一般模型过于依赖除原始问答以外的特征信息,很难完全学习文本特征,使得实体链接准确率难以提高,进而限制了问答等上层应用的性能上限。针对这些问题,聚焦问答系统实体链接的候选生成和候选消歧,将实体消歧视为分类任务,构建了一种基于Bi-LSTM和CNN的多通道网络模型,提出阈值权重拼接策略融合CNN和LSTM通道提取的多维特征。引入双向注意力机制,充分挖掘问句提及表征和知识库实体描述之间的深层语义关系,有效降低问答对额外特征规则的依赖,以便应用在多领域知识库中。实验结果表明,在仅依靠问答原始信息的情况下,提出的实体链接模型显著提高了问答系统的整体性能,并具有较强的泛化性,在公开数据集CCKS2019-CKBQA和NLPCC-2016KBQA中取得了最优的[Acc@1]和[F1]值。