计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (22): 32-37.
王文帅1,2,杜 然1,2,程耀东1,陈 刚1
WANG Wenshuai1,2, DU Ran1,2, CHENG Yaodong1, CHEN Gang1
摘要: 随着微博的日趋流行,新浪微博已成为公众获取和传播信息的重要平台之一,针对微博数据的话题挖掘也成为当前的研究热点。提出一个面向大规模微博数据的话题挖掘方法。首先对大规模微博数据进行分析,基于Bloom Filter算法对数据进行去重处理,针对微博的特有结构,对文本进行预处理,提出改进的LDA主题模型Social Network LDA(SNLDA),采用吉布斯采样法进行模型推导,挖掘出微博话题。实验结果表明,方法能有效地从大规模微博数据中挖掘出话题信息。