挖掘数据流近似频繁项的改进算法

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (13): 150-152.

• 数据库、信号与信息处理 • 上一篇下一篇

挖掘数据流近似频繁项的改进算法

王秀坤,王铁存,周国能,冯维

大连理工大学计算机系，辽宁大连 116023

收稿日期:2007-08-21 修回日期:2007-11-19 出版日期:2008-05-01 发布日期:2008-05-01
通讯作者: 王秀坤

Improved algorithm for mining approximate frequent item over data streams

WANG Xiu-kun,WANG Tie-cun,ZHOU Guo-neng,FENG Wei

Department of Computer，Dalian University of Technology，Dalian，Liaoning 116023，China

Received:2007-08-21 Revised:2007-11-19 Online:2008-05-01 Published:2008-05-01
Contact: WANG Xiu-kun

摘要/Abstract

摘要： 数据流的无限性、连续性和速度快等特点，使得挖掘出所有准确的数据流频繁项通常是不可能的.算法的空间复杂度和时间复杂度通常是评价频繁项挖掘算法优劣的两个主要度量.通过引入局部性原理改进数据流近似频繁项的挖掘算法，该算法的空间复杂性为O（1/ε），数据流每个数据项的最坏处理时间是O（1/ε），其最好处理时间是O（1），输出结果的频率值误差为∑_(i=2)^j（1-μ_i）×k_i。

关键词: 数据流, 数据流挖掘, 频繁项

Abstract: Because of the rapid data arriving speed and huge size of data set in stream model，it is usually unable to find all the accurate frequent items of a data stream.The space complexity and the time complexity are the main measurement which is used to evaluate the strongpoints and weaknesses of algorithm.This paper proposes an improved algorithm based on principle of locality to find ε-approximate frequent items of a data stream，its space complexity is O（1/ε）.The processing time for each item is O（1/ε） in the worst and the processing time for each item is O（1） in the best.Moreover，the frequency error bound of the results returned by the proposed algorithm is ∑_(i=2)^j（1-μ_i）×k_i.

Key words: data stream, data stream mining, frequent item

王秀坤,王铁存,周国能,冯维. 挖掘数据流近似频繁项的改进算法[J]. 计算机工程与应用, 2008, 44(13): 150-152.

WANG Xiu-kun,WANG Tie-cun,ZHOU Guo-neng,FENG Wei. Improved algorithm for mining approximate frequent item over data streams[J]. Computer Engineering and Applications, 2008, 44(13): 150-152.

[1]	王俊红，郭亚慧. 面向动态数据块的非平衡数据流分类算法[J]. 计算机工程与应用, 2021, 57(13): 124-129.
[2]	周玉，朱文豪，房倩，白磊. 基于聚类的离群点检测方法研究综述[J]. 计算机工程与应用, 2021, 57(12): 37-45.
[3]	徐清妍，何丽，朱泓西. 改进Hoeffding不等式的概念漂移检测方法[J]. 计算机工程与应用, 2020, 56(19): 55-61.
[4]	顾军华，苏鸣，张亚娟，张丹红. 基于位编码链表的快速频繁模式挖掘算法研究[J]. 计算机工程与应用, 2020, 56(19): 86-93.
[5]	胡阳，胡学钢，李培培. 基于Spark的快速短文本数据流分类方法[J]. 计算机工程与应用, 2020, 56(14): 138-147.
[6]	宋峣1，2，3，孙小涓1，2，3，胡玉新1，2，3，雷斌1，2，3，卢晓军4. 基于流式计算的遥感卫星数据快视处理方法[J]. 计算机工程与应用, 2019, 55(10): 77-82.
[7]	郑逢斌1，朱青1，2，臧文乾2. 一种XML驱动的遥感产品生产并发数据流模型[J]. 计算机工程与应用, 2018, 54(24): 266-270.
[8]	杨融泽，柳毅. 面向异常数据流的多分类器选择集成方法[J]. 计算机工程与应用, 2018, 54(2): 107-113.
[9]	石陆魁1，张欣1，师胜利2. 基于Spark的FP_Growth算法的并行与优化[J]. 计算机工程与应用, 2018, 54(13): 52-58.
[10]	魏子衿1，2，3，肖丽2，3. 改进顶点聚类方法的并行核外模型简化算法[J]. 计算机工程与应用, 2018, 54(13): 181-190.
[11]	刘琰，张进，陈静，尹美娟，张伟丽. 基于最大频繁项集挖掘的微博炒作群体发现方法[J]. 计算机工程与应用, 2017, 53(4): 90-97.
[12]	刘骁，刘辉平，金澈清. 面向不确定数据流的近似ER-Topk查询处理[J]. 计算机工程与应用, 2017, 53(4): 98-105.
[13]	韩崇1，袁颖珊2，梅焘2，耿慧玲2. 基于K-means的数据流离群点检测算法[J]. 计算机工程与应用, 2017, 53(3): 58-63.
[14]	杨小川，姜军，马晓东，漆锋滨. 基于GCC关键变量数据流分析算法的程序切片技术[J]. 计算机工程与应用, 2017, 53(24): 40-47.
[15]	史荧中1，2，曹建峰2，邓赵红1，蒋亦樟1. 面向数据流分类的柔性漂移支持向量机[J]. 计算机工程与应用, 2017, 53(23): 118-122.

挖掘数据流近似频繁项的改进算法

Improved algorithm for mining approximate frequent item over data streams

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics