计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (35): 128-131.
胡运翠,林鸿飞,杨志豪
HU Yuncui,LIN Hongfei,YANG Zhihao
摘要: 针对生物医学数据库中基因标识符的描述信息不够丰富和完整,不能很好地区分歧义词不同含义的问题,给出了一种基于扩展语义相似度的基因名标准化方法。该方法利用MEDLINE摘要信息和基因本体描述信息,为数据库中的基因标识符生成了扩展的语义信息;然后通过比较歧义基因名的上下文信息和其不同语义描述信息之间的相似性,为歧义基因名确定能够表达真实含义的唯一基因标识符。使用BioCreative II基因标准化任务的语料,实验结果的准确率达到了80%,召回率达到了82.4%,F值达到了81.2%。从实验结果可以看出,扩展语义相似度的方法适用于生物医学领域的命名实体标准化研究。