计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (23): 18-23.DOI: 10.3778/j.issn.1002-8331.1709-0162
谢晨阳1,卢焱鑫2
XIE Chenyang1,LU Yanxin2
摘要: 随着互联网和信息技术的发展,大量的多标签文本数据快速产生。在文本分类中如何确定合适的分类数目以及如何更加准确地辨别文档的标签是亟待解决的问题。提出的HL_LDA模型通过层次狄利克雷过程自动确定分类的数目,通过发掘多标签文档的标签之间的层次信息提高分类的质量。实验结果表明在不同类型的数据集中,和经典的LDA,SVM等方法相比,HL_LDA在精度,F1-score等评估指标上明显优于现有的方法。