计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (7): 115-120.DOI: 10.3778/j.issn.1002-8331.1912-0489
陈伟,徐云
CHEN Wei, XU Yun
摘要:
生物医学研究人员经常搜索大量文献,寻找生物实体之间的作用关系,如:药物-药物、化合物-蛋白质等作用关系。随着医学文献的激增和深度学习的发展,自动从文献中提取生物实体作用关系已经显示出巨大潜力。以往使用深度学习的方法取得了一定效果,但存在以下问题:模型采用静态词向量,不能区分一词多义;未考虑单词的权重,对长句子提取效果较差;通过多种模型集成来改善样本不平衡问题,模型较为复杂。为此提出一种基于残差结构的深层多通道CNN模型(MCCNN),通过BERT(Bidirectional Encoder Representation from Transformers)产生动态词向量来提高词汇语义表示的准确性,利用多头注意力捕获长句子的依赖并通过设计Ranking损失函数代替多模型集成来降低样本不平衡的影响。在多个数据集上进行测试,结果表明提出的方法具有较好的效果。