摘要: 使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于“段袋“假设——文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。
史庆伟,郭朋亮. 基于LDA的条件随机场主题模型研究[J]. 计算机工程与应用, 2015, 51(7): 131-135.
SHI Qingwei, GUO Pengliang. Conditional random fields topic model based on LDA model[J]. Computer Engineering and Applications, 2015, 51(7): 131-135.