一种基于数据压缩的Apriori算法

计算机工程与应用 ›› 2013, Vol. 49 ›› Issue (14): 117-120.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

一种基于数据压缩的Apriori算法

高海洋1，2，沈强1，张轩溢1，赵志军1

1.中国科学院声学研究所高性能网络实验室，北京 100190
2.无锡中科智能信息处理研发中心有限公司，江苏无锡 214135

出版日期:2013-07-15 发布日期:2013-07-31

Improved Apriori based on data compression

GAO Haiyang1，2, SHEN Qiang1, ZHANG Xuanyi1, ZHAO Zhijun1

1.High Performance Network Lab, Institute of Acoustics, China Academy of Sciences, Beijing 100190, China
2.Wuxi Zhongke R&D Center of Intelligent Information Processing Technologies, Wuxi, Jiangsu 214135, China

Online:2013-07-15 Published:2013-07-31

摘要/Abstract

摘要： 随着物联网技术的飞速发展，数据采集手段迅速增加，对海量数据分析与处理的需求也愈加强烈。关联规则挖掘算法通过数据之间的关联分析，挖掘出数据之间的隐含关系，进而获得了大量应用。在众多的关联规则算法中，传统的Apriori算法虽然得到了大量应用，但是因为该算法产生大量的候选集，而且需要多次对数据库进行扫描，导致该算法的运行效率大大降低。为了克服Apriori算法的以上缺点，通过数据压缩的方法减少了数据库扫描次数的同时，对生成的候选集进行了多次验证，大大减少了无效候选集的数量。大量的数据挖掘实验证明提出的改进算法可以在正确挖掘数据集关联规则的同时，大大提高了算法的运行效率。

关键词: 数据挖掘, 关联规则, Apriori算法, 数据压缩, 频繁集检测

Abstract: The Apriori algorithm is one of the most influential algorithms for mining association rules. It can work on the large dataset efficiently. However, the traditional?Apriori algorithm?has two?bottlenecks. It generates a?large number of?candidate?sets, and most of them are useless. It has to scan?the database for many times. This paper presents an improved Apriori algorithm based on the data compression methodology. The improved algorithm can reduce the number of database scans and the number of candidate set by pre-judging at the same time. Complicated experiment demonstrates that a significant improvement has been achieved by the algorithm.

Key words: data mining, association rules, Apriori, data compression, detection of frequent set

高海洋1，2，沈强1，张轩溢1，赵志军1. 一种基于数据压缩的Apriori算法[J]. 计算机工程与应用, 2013, 49(14): 117-120.

GAO Haiyang1，2, SHEN Qiang1, ZHANG Xuanyi1, ZHAO Zhijun1. Improved Apriori based on data compression[J]. Computer Engineering and Applications, 2013, 49(14): 117-120.

[1]	宗晓萍，陶泽泽. 基于掌握速度的知识追踪模型[J]. 计算机工程与应用, 2021, 57(6): 117-123.
[2]	高天宇，王庆荣，杨磊. 粗糙集属性依赖度强化的应急数据挖掘模型[J]. 计算机工程与应用, 2021, 57(3): 87-93.
[3]	马洋，赵旭俊. 基于相关子空间的多源离群检测算法[J]. 计算机工程与应用, 2021, 57(17): 88-95.
[4]	张念蓬，吴旭，朱强. 基于熵的过采样框架[J]. 计算机工程与应用, 2021, 57(13): 96-101.
[5]	张博文，刘智，桑国明. 基于核密度波动的异常检测算法[J]. 计算机工程与应用, 2021, 57(12): 132-136.
[6]	张振海，张湘婷. 上下文感知的高铁信息服务推荐方法研究[J]. 计算机工程与应用, 2021, 57(12): 231-236.
[7]	饶加旺，马荣华. 改进核密度估计的空间点密度算法[J]. 计算机工程与应用, 2021, 57(11): 260-265.
[8]	杨葛英，沈夏炯，史先进，张磊. 以概念格为背景的关联规则可视化[J]. 计算机工程与应用, 2021, 57(1): 84-91.
[9]	王杰，陈志刚，刘加玲，程宏兵. 基于聚类的云隐私行为挖掘技术[J]. 计算机工程与应用, 2020, 56(5): 80-84.
[10]	王子龙，李进，宋亚飞. 基于距离和权重改进的K-means算法[J]. 计算机工程与应用, 2020, 56(23): 87-94.
[11]	衣俊艳，吴博雅，雍巧玲. 具有加权特性的弹性网络聚类算法研究[J]. 计算机工程与应用, 2020, 56(22): 55-65.
[12]	纪文璐，王海龙，苏贵斌，柳林. 基于关联规则算法的推荐方法研究综述[J]. 计算机工程与应用, 2020, 56(22): 33-41.
[13]	顾军华，苏鸣，张亚娟，张丹红. 基于位编码链表的快速频繁模式挖掘算法研究[J]. 计算机工程与应用, 2020, 56(19): 86-93.
[14]	刘文芬，穆晓东，黄月华. 基于多分辨率网格的异常检测方法[J]. 计算机工程与应用, 2020, 56(17): 78-85.
[15]	杜德，高保禄，田力. 结合快速层式DCT和动态LOD的地形压缩绘制技术[J]. 计算机工程与应用, 2020, 56(13): 223-229.

一种基于数据压缩的Apriori算法

Improved Apriori based on data compression

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics