计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (6): 133-139.DOI: 10.3778/j.issn.1002-8331.1712-0254
杨 珍,耿秀丽
YANG Zhen, GENG Xiuli
摘要: 大数据时代,人们获取所需信息的困难度提高,而数据挖掘是当下解决此问题的关键技术。Apriori算法作为数据挖掘中的常用算法,通过挖掘数据背后的潜在关联规则。考虑到传统Apriori算法执行过程中,数据扫描频繁、候选集获取繁琐等问题,提出采用加权Apriori算法,即将冗余记录存储一次,并将记录的重复次数占全部记录数的比值作为权重,压缩空间;采用二进制的布尔矩阵替代原有数据集,通过矩阵内部“与运算”,获取最大频繁集,降低时间复杂度。考虑到原始数据冗余性以及粗糙集属性约简的不精确性,在提取关联规则前,提出采用多粒度粗糙集的属性约简算法,通过知识粒度细化属性值来提高约简精度,降低空间复杂度。最后,将所提方法与基于频繁矩阵的Apriori算法以及原始Apriori算法进行比较,验证所提方法的实用性和有效性。