计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (16): 124-131.DOI: 10.3778/j.issn.1002-8331.1905-0456
张云纯,张琨,徐济铭,袁卫平,蔡颖,高雅
ZHANG Yunchun, ZHANG Kun, XU Jiming, YUAN Weiping, CAI Ying, GAO Ya
摘要:
提出一种基于图模型的多文档摘要生成算法,对海外大量新闻文档进行主题划分,并提取每个主题的摘要。利用传统的基于图模型方法得到的摘要,其冗余度较高,亦不能够充分考虑新闻文本时效性强、主题明确的特征。在文本特征向量化方面,引入了热度系数,改进了传统的TF-IDF算法。在主题的划分方面,采用基于密度的两阶段聚类方法,改进了传统的基于[K]-Means进行聚类的方法的不足,同时对文本进行更明确、更具层次性的主题划分。在摘要抽取方面,为句子设计了符合新闻文本特征的重要度计算公式。实验结果表明,基于图模型的自动文本摘要生成算法的效果优于传统算法。