基于LDA模型的文本分类研究

计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (13): 150-153.

• 数据库、信号与信息处理 • 上一篇下一篇

基于LDA模型的文本分类研究

姚全珠，宋志理，彭程

西安理工大学计算机科学与工程学院，西安 710048

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2011-05-01 发布日期:2011-05-01

Research on text categorization based on LDA

YAO Quanzhu，SONG Zhili，PENG Cheng

School of Computer Science & Engineering，Xi’an University of Technology，Xi’an 710048，China

Received:1900-01-01 Revised:1900-01-01 Online:2011-05-01 Published:2011-05-01

摘要/Abstract

摘要： 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性，提出了一种基于LDA模型的文本分类算法，在判别模型SVM框架中，应用LDA概率增长模型，对文档集进行主题建模，在文档集的隐含主题-文本矩阵上训练SVM，构造文本分类器。参数推理采用Gibbs抽样，将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法，确定最优主题数T。在语料库上进行的分类实验表明，与文本表示采用VSM结合SVM，LSI结合SVM相比，具有较好的分类效果。

关键词: 文本分类, 潜在狄利克雷分配（LDA）模型, Gibbs抽样, 贝叶斯统计理论

Abstract: When the text corpuses are high-dimensional and large-scale，the traditional dimension reduction algorithms will expose their limitations.A Chinese text categorization algorithm based on LDA is presented.In the discriminative frame of Support Vector Machine（SVM），Latent Dirichlet Allocation（LDA） is used to give a generative probabilistic model for the text corpus，which reduces each document to fixed valued features——The probabilistic distribution on a set of latent topics.Gibbs sampling is used for parameter estimation.In the process of modeling the corpus，a latent topics-document matrix associated with the corpus has been constructed for training SVM.Standard method of Bayes is used for reference to get the best number of topics.Compared to Vector Space Model（VSM） for text expression combined SVM and the classifier based on Latent Semantic Indexing（LSI） combined SVM，the experimental result shows that the proposed method for text categorization is practicable and effective.

Key words: text categorization, Latent Dirichlet Allocation（LDA）, Gibbs sampling, Bayes statistics theory

姚全珠，宋志理，彭程. 基于LDA模型的文本分类研究[J]. 计算机工程与应用, 2011, 47(13): 150-153.

YAO Quanzhu，SONG Zhili，PENG Cheng. Research on text categorization based on LDA[J]. Computer Engineering and Applications, 2011, 47(13): 150-153.

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	70

来源	本网站	其他网站

次数	69	1
比例	99%	1%

摘要

最新录用	在线预览	正式出版

0	0	82

	来源	本网站

	次数	82
	比例	100%

[1]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[2]	黄金杰，蔺江全，何勇军，何瑾洁，王雅君. 局部语义与上下文关系的中文短文本分类算法[J]. 计算机工程与应用, 2021, 57(6): 94-100.
[3]	郑诚，董春阳，黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
[4]	贺文亮，朱敏玲. 胶囊神经网络研究现状与未来的浅析[J]. 计算机工程与应用, 2021, 57(3): 33-43.
[5]	滕金保，孔韦韦，田乔鑫，王照乾，李龙. 基于CNN和LSTM的多通道注意力机制文本分类模型[J]. 计算机工程与应用, 2021, 57(23): 154-162.
[6]	武书钊，李功权，卜明伟. 基于知识图谱的自杀倾向检测问答系统构建[J]. 计算机工程与应用, 2021, 57(22): 304-312.
[7]	李铁飞，生龙，吴迪. BERT-TECNN模型的文本分类方法研究[J]. 计算机工程与应用, 2021, 57(18): 186-193.
[8]	丁勇，程家桥，蒋翠清，王钊. 基于主题和关键词特征的比较文本分类方法[J]. 计算机工程与应用, 2021, 57(17): 196-202.
[9]	滕金保，孔韦韦，田乔鑫，王照乾. 基于LSTM-Attention与CNN混合模型的文本分类方法[J]. 计算机工程与应用, 2021, 57(14): 126-133.
[10]	翟一鸣，王斌君，周枝凝，仝鑫. 面向文本分类的多头注意力池化RCNN模型[J]. 计算机工程与应用, 2021, 57(12): 155-160.
[11]	姚佳奇，徐正国，燕继坤，王科人. GCN-PU:基于图卷积网络的PU文本分类算法[J]. 计算机工程与应用, 2021, 57(11): 162-167.
[12]	申艳光，贾耀清. 基于词共现与图卷积的文本分类方法[J]. 计算机工程与应用, 2021, 57(11): 173-178.
[13]	郝超，裘杭萍，孙毅，张超然. 多标签文本分类研究进展[J]. 计算机工程与应用, 2021, 57(10): 48-56.
[14]	张曼，夏战国，刘兵，周勇. 全卷积神经网络的字符级文本分类方法[J]. 计算机工程与应用, 2020, 56(5): 166-172.
[15]	唐庄，王志舒，周爱，冯美姗，屈雯，鲁明羽. 面向文本分类的transformer-capsule集成模型[J]. 计算机工程与应用, 2020, 56(24): 151-156.

基于LDA模型的文本分类研究

Research on text categorization based on LDA

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐 0

Metrics