计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (13): 90-94.DOI: 10.3778/j.issn.1002-8331.1606-0438
段旭磊,张仰森,郭正斌
DUAN Xulei, ZHANG Yangsen, GUO Zhengbin
摘要: 针对微博文本高维、稀疏的特点,比较基于同义词词林等外部知识库的文本扩展策略,利用Word2vec训练微博语料,并构建微博上下文相关词词表,通过种子词表和微博标签信息去扩展微博文本流中的关键词,最后提出了提取微博文本关键词及区分词向量中相似词和相关词的方法。实验结果证明,微博短文本经过Word2vec词向量相关词及微博标签扩展后,其聚类效果有了明显提高。