计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (21): 156-162.DOI: 10.3778/j.issn.1002-8331.2103-0531
郭振东,林民,李成城,赵佳鹏
GUO Zhendong, LIN Min, LI Chengcheng, ZHAO Jiapeng
摘要: 如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。