计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (5): 289-296.DOI: 10.3778/j.issn.1002-8331.2109-0492
李胜男,曲维光,魏庭新,周俊生,顾彦慧,李斌
LI Shengnan, QU Weiguang, WEI Tingxin, ZHOU Junsheng, GU Yanhui, LI Bin
摘要: “V+V”是现代汉语中的常见结构,能够形成兼语、连动等多种完全不同的句法结构,给句法和语义解析造成困难。针对“V+V”形成的句法结构类型和序列关系识别问题,设计并制定了一套语料库标注规范,以解决语料库中存在的“V+V”结构的嵌套标注问题,并据此构建起一个包含5?381个兼语句子、7?987个连动句子,以及1?212个兼语连动嵌套句子的“V+V”语料库。提出一个基于BiLSTM-CRF和多头注意力机制的模型,能够同时识别结构中的多个动词和名词的句法、语义角色。相比于以往只研究单项识别兼语或者连动结构,该模型不仅可以同时识别兼语结构、连动结构,还可以解决兼语连动嵌套结构的识别问题。实验结果表明:该方法能够很好地解决“V+V”序列关系的识别问题,在测试集语料上达到92.12%的F1值。