计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (4): 255-266.DOI: 10.3778/j.issn.1002-8331.2107-0423
梁龙跃,刘波
LIANG Longyue, LIU Bo
摘要: 上市公司年报中的描述性文本信息是上市公司信息披露的重要组成部分,通过对上市公司信息披露文本的挖掘与分析可以提高对其财务风险的预测能力。基于BERT(bidirectional encoder representations from transformer)模型与自编码器(autoencoder,AE),提出了BERT-AE融合文本特征提取模型,提取A股市场531家上市公司年报中“经营情况讨论与分析”和“审计报告”的文本特征,构建能够反映财务困境公司与正常公司的文本特征指标,随后将文本特征指标与财务指标数据结合,分别使用Logistic回归、极端梯度提升(extreme gradient boosting,XGBoost)、人工神经网络(artificial neural networks,ANN)、卷积神经网络(convolutional neural networks,CNN)四种模型,检验加入文本特征指标后财务风险预测的准确性是否得到提高,并使用Word2Vec-CNN-AE、Word2Vec-LSTM-AE模型提取财务文本特征进行对比实验。结果表明,三种模型提取的财务文本特征均能使财务预警模型预测的AUC得到提升,且BERT-AE模型提取的财务文本特征使得四种财务预警模型预测的AUC值提升效果更为显著,表明BERT-AE模型有效地提取了财务文本特征,提高了上市公司财务风险预警模型的预测能力。