语义相似度的基因名标准化方法

计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (35): 128-131.

• 数据库、信号与信息处理 • 上一篇下一篇

语义相似度的基因名标准化方法

胡运翠，林鸿飞，杨志豪

大连理工大学电子信息与电气工程学部，辽宁大连 116024

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2011-12-11 发布日期:2011-12-11

Gene name normalization based on extended semantic similarity

HU Yuncui，LIN Hongfei，YANG Zhihao

School of Computer Science and Technology，Dalian University of Technology，Dalian，Liaoning 116024，China

Received:1900-01-01 Revised:1900-01-01 Online:2011-12-11 Published:2011-12-11

摘要/Abstract

摘要： 针对生物医学数据库中基因标识符的描述信息不够丰富和完整，不能很好地区分歧义词不同含义的问题，给出了一种基于扩展语义相似度的基因名标准化方法。该方法利用MEDLINE摘要信息和基因本体描述信息，为数据库中的基因标识符生成了扩展的语义信息;然后通过比较歧义基因名的上下文信息和其不同语义描述信息之间的相似性，为歧义基因名确定能够表达真实含义的唯一基因标识符。使用BioCreative II基因标准化任务的语料，实验结果的准确率达到了80%，召回率达到了82.4%，F值达到了81.2%。从实验结果可以看出，扩展语义相似度的方法适用于生物医学领域的命名实体标准化研究。

关键词: 基因, 标准化, 扩展语义相似度, 消歧

Abstract: In this paper，a normalization method based on extended semantic similarity is presented to resolve the problem that description of gene symbols in biomedical databases is not rich and complete so that it is hard to make a choice from different gene symbols for the ambiguous term.In this method，extended semantic information is extracted for each gene symbol from gene ontology and MEDLINE abstracts，and the unique identifier which expresses the actual meaning of the named entities is determined depending on the similarity of the context information and extended semantic description.The experiment on Bio- Creative II gene normalization task achieves an F-measure performance of 81.2%（precision：80% recall：82.4%）.The experimental result shows that the method based on extended semantic similarity can apply to gene named entities normalization.

Key words: gene, normalization, extended semantic similarity, disambiguation

胡运翠，林鸿飞，杨志豪. 语义相似度的基因名标准化方法[J]. 计算机工程与应用, 2011, 47(35): 128-131.

HU Yuncui，LIN Hongfei，YANG Zhihao. Gene name normalization based on extended semantic similarity[J]. Computer Engineering and Applications, 2011, 47(35): 128-131.

[1]	于娟，罗舜. 基于YOLOv5的违章建筑检测方法[J]. 计算机工程与应用, 2021, 57(20): 236-244.
[2]	秦博宇，郝晓燕，刘永芳. 基于SVM和CRF双层模型的FrameNet框架消歧[J]. 计算机工程与应用, 2021, 57(18): 255-262.
[3]	杨锦朋，常俊，余江，李晓薇. 免校准的跨异构设备的室内定位方法[J]. 计算机工程与应用, 2020, 56(2): 248-254.
[4]	刘超，吴申，郑一超，侯维岩. 基于深度森林和DNA甲基化的癌症分类研究[J]. 计算机工程与应用, 2020, 56(13): 189-193.
[5]	张晓婷，何朗，黄樟灿，谈庆. 基于MFR-GEP的高阶常微分方程预测模型[J]. 计算机工程与应用, 2019, 55(21): 247-253.
[6]	陈佳瑜，李梁，罗云. 采用多样性选择的量子粒子群双向聚类算法[J]. 计算机工程与应用, 2018, 54(9): 42-46.
[7]	郭勇1，张国锋1，刘丽萍2. 基因沉默机制的基因表达式编程[J]. 计算机工程与应用, 2018, 54(23): 131-136.
[8]	崔未，王卫华，黄樟灿，谈庆. 基于GEP算法的高阶常微分方程预测模型[J]. 计算机工程与应用, 2018, 54(18): 256-262.
[9]	曾维新1，赵翔1，2，冯滔1，唐九阳1，2. 面向领域的命名实体消歧方法改进研究[J]. 计算机工程与应用, 2018, 54(17): 126-134.
[10]	孟安波，林艺城. 基因编辑差分算法在多燃料经济调度中的应用[J]. 计算机工程与应用, 2018, 54(15): 221-228.
[11]	徐庆征1，杨恒1，王娜1，伍国华2，江巧永3. 多因子进化算法研究进展[J]. 计算机工程与应用, 2018, 54(11): 15-20.
[12]	汶晨光，苟秉宸，吴林健，马炜琳. 基于眼动分析的文化设计基因提取与应用研究[J]. 计算机工程与应用, 2018, 54(11): 217-224.
[13]	孙志伟，单渊博，蔡润身，王林. 快速的致病基因分析方法[J]. 计算机工程与应用, 2017, 53(17): 47-52.
[14]	蔡蓉，钱东，王丹丹，朱平. 一种兼具生物和物理特征的E基因签名方法#br# ——以p53家族基因为例[J]. 计算机工程与应用, 2017, 53(13): 155-159.
[15]	黄智1，何锫2，3. 开放尾部的基因表达式程序设计[J]. 计算机工程与应用, 2016, 52(9): 1-5.

语义相似度的基因名标准化方法

Gene name normalization based on extended semantic similarity

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics