大数据集挖掘的层次二分抽样算法

doi:10.3778/j.issn.1002-8331.2010.35.036

计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (35): 126-128.DOI: 10.3778/j.issn.1002-8331.2010.35.036

• 数据库、信号与信息处理 • 上一篇下一篇

大数据集挖掘的层次二分抽样算法

王玉荣，钱雪忠

江南大学信息工程学院，江苏无锡 214122

收稿日期:2010-05-24 修回日期:2010-08-09 出版日期:2010-12-11 发布日期:2010-12-11
通讯作者: 王玉荣

Level two sub sampling algorithm of mining large data sets

WANG Yu-rong，QIAN Xue-zhong

School of Information，Jiangnan University，Wuxi，Jiangsu 214122，China

Received:2010-05-24 Revised:2010-08-09 Online:2010-12-11 Published:2010-12-11
Contact: WANG Yu-rong

摘要/Abstract

摘要： 针对目前关联规则挖掘的数据集不断增大，而很多抽样算法精度不高还要解决一系列NP难问题等情况。在分析利用频繁1项集进行抽样处理的基础上，提出了高精度的基于频繁n项集平均划分的关联规则挖掘算法——EHAC算法。理论和实验都表明，EHAC能够提高数据挖掘精度，在数据平均划分的同时，尽量保证频繁n项集能够平均划分，减少了数据库扫描次数，一定程度上缩减了数据库规模。

关键词: 大数据集, 关联规则挖掘, 抽样算法, EHAC算法, 准则系数

Abstract: For the data sets of the current association rule mining increasing，many sampling algorithm accuracy is not high and have to solve a series of NP hard problems.On the basis of using one frequent item to sample process，the association rules mining algorithm which based on the average classification of the n frequent itemsets——EHAC algorithm is presented.Theory and experiment show that EHAC can improve the accuracy of data mining，ensure the frequent itemsets can be divided average with the data be divided average，reduce the number of database scans，reduce the size of the database to a certain extent.

Key words: large data sets, association rules mining, sampling algorithm, EHAC algorithm, guide coefficient

中图分类号:

TP311

王玉荣，钱雪忠. 大数据集挖掘的层次二分抽样算法[J]. 计算机工程与应用, 2010, 46(35): 126-128.

WANG Yu-rong，QIAN Xue-zhong . Level two sub sampling algorithm of mining large data sets[J]. Computer Engineering and Applications, 2010, 46(35): 126-128.

[1]	刘莉萍1，章新友1，牛晓录2，郭永坤1，丁亮1. 基于Spark的并行关联规则挖掘算法研究综述[J]. 计算机工程与应用, 2019, 55(9): 1-9.
[2]	陆凯，徐华. ML-kNN算法在大数据集上的高效应用[J]. 计算机工程与应用, 2019, 55(1): 84-88.
[3]	赵慧茹，林民. 融合关联规则的学术论文主题学习及表示方法[J]. 计算机工程与应用, 2018, 54(20): 159-165.
[4]	景波，刘莹，陈耿. 结合SOM的关联规则挖掘研究[J]. 计算机工程与应用, 2014, 50(22): 154-157.
[5]	吴磊1，房斌1，刁丽萍2，陈静1，谢娜娜1. 融合过抽样和欠抽样的不平衡数据重抽样方法[J]. 计算机工程与应用, 2013, 49(21): 172-176.
[6]	张珍珍，董才林，陈增照，何秀玲. 改进的结合密度聚类的SVM快速分类方法[J]. 计算机工程与应用, 2011, 47(2): 136-138.
[7]	沈小虎，余建坤. 基于Vague集的Apriori算法的改进[J]. 计算机工程与应用, 2010, 46(25): 131-133.
[8]	何松柏¹,袁晓洁²,窦志成²,王亚军¹. 高速公路交通事故成因分析与关联因素研究[J]. 计算机工程与应用, 2008, 44(5): 218-220.
[9]	贾俊芳,张日权. 基于分布式的大数据集聚类分析[J]. 计算机工程与应用, 2008, 44(28): 133-135.
[10]	李广原,雷鸿,龙珑. 一种新的动态频繁项集挖掘方法[J]. 计算机工程与应用, 2008, 44(21): 209-211.
[11]	钱雪忠,孔芳. 关联规则挖掘中对Apriori算法的研究[J]. 计算机工程与应用, 2008, 44(17): 138-140.
[12]	张龙波^1,2，李战怀²，余敏²，蒋芸². 带权值数据流滑动窗口随机抽样算法的改进[J]. 计算机工程与应用, 2007, 43(25): 18-20.
[13]	杨玉强赵连朋. 基于数据网格进行知识关联规则挖掘方法研究[J]. 计算机工程与应用, 2007, 43(13): 167-169.

大数据集挖掘的层次二分抽样算法

Level two sub sampling algorithm of mining large data sets

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 13

编辑推荐

Metrics