计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (21): 111-115.
徐 凯1,2,沙 瀛2,李 阳3,单既喜2,王晓岩2
XU Kai1,2, SHA Ying2, LI Yang3, SHAN Jixi2, WANG Xiaoyan2
摘要: Twitter已经成为微博中的代表性应用,但是通过分析发现twitter上的消息(推文)有很多完全一致或相似,这对后续对推文的分析和存储都带来很大的问题。为了处理这些内容完全一致或相似的消息(推文),针对推文特有的短文本的特点,基于规则处理完全一致的推文,采用simhash的方法来处理相似性的推文。实验采用实际抓取的240万条推文数据进行分析和处理,分别对中文和英文的推文重复情况进行了分析,实验结果发现重复的推文占总推文的10%左右。