计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (4): 90-97.DOI: 10.3778/j.issn.1002-8331.1507-0176
刘 琰,张 进,陈 静,尹美娟,张伟丽
LIU Yan, ZHANG Jin, CHEN Jing, YIN Meijuan, ZHANG Weili
摘要: 近年来微博炒作账户异军突起,采用违规手段开展网络公关活动,严重扰乱了正常的互联网秩序。传统的炒作账户发现主要采用特征分析方法,忽视了炒作账户的组织性和策划性,难以发现隐蔽性高的炒作账户。针对以上问题,充分考虑到炒作账户共同参与微博炒作的群体特性,将炒作群体发现问题转化为挖掘最大频繁项集问题,提出了一种基于最大频繁项集挖掘的炒作群体发现方法,能够找出多次共同参与炒作微博传播的账户群体。为了提高最大频繁项集挖掘的效率,结合研究背景以及事务数据库的特点,提出了一种基于迭代交集的最大频繁项集发现算法,采用基于二分查找的最大频繁候选项集筛选策略对事务数据库进行缩减,并利用多种方式减少事务间取交集的次数。最后通过实验对IIA算法的性能进行了评估,并在真实的新浪微博数据集上验证了炒作群体发现方法的有效性,实验结果表明利用该方法发现的炒作群体准确率高于90%,而且能发现传统特征分析方法难以识别的隐蔽炒作账户。