基于MapReduce的海量数据挖掘技术研究

计算机工程与应用 ›› 2013, Vol. 49 ›› Issue (20): 112-117.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

基于MapReduce的海量数据挖掘技术研究

李伟卫1，赵航2，张阳1，王勇3

1.西北农林科技大学信息工程学院，陕西杨凌 712100
2.西安电子科技大学机电工程学院，西安 710072
3.西北工业大学计算机学院，西安 710072

出版日期:2013-10-15 发布日期:2013-10-30

Research on massive data mining based on MapReduce

LI Weiwei1, ZHAO Hang2, ZHANG Yang1, WANG Yong3

1.College of Information Engineering, Northwest A&F University, Yangling, Shaanxi 712100, China
2.School of Mechano-Electronic Engineering, Xidian University, Xi’an 710072, China
3.School of Computer, Northwestern Polytechnical University, Xi’an 710072, China

Online:2013-10-15 Published:2013-10-30

摘要/Abstract

摘要： MapReduce是一种编程模型，可以运行在异构环境下，编程简单，不必关心底层实现细节，用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中：朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明，在保证算法准确率的前提下，MapReduce可以有效提高海量数据挖掘工作的效率。

关键词: 云计算, 数据挖掘, Hadoop, MapReduce

Abstract: MapReduce is a programming model which can run in a heterogeneous environment for mining massive volume of data. It is simple to be implemented without paying attention to the underlying details and can be used for large-scale parallel computing. In this paper, three data mining algorithms, Naive Bayes, K-modes, ECLAT are implemented by employing the MapReduce programming model. The results indicate that MapReduce can perform the data mining tasks on massive volume of data efficiently.

Key words: cloud computing, data mining, Hadoop, MapReduce

李伟卫1，赵航2，张阳1，王勇3. 基于MapReduce的海量数据挖掘技术研究[J]. 计算机工程与应用, 2013, 49(20): 112-117.

LI Weiwei1, ZHAO Hang2, ZHANG Yang1, WANG Yong3. Research on massive data mining based on MapReduce[J]. Computer Engineering and Applications, 2013, 49(20): 112-117.

[1]	宗晓萍，陶泽泽. 基于掌握速度的知识追踪模型[J]. 计算机工程与应用, 2021, 57(6): 117-123.
[2]	王凤琴，柯亨进. 卷积神经网络及其分析在抑郁症判别中的应用[J]. 计算机工程与应用, 2021, 57(5): 245-250.
[3]	高天宇，王庆荣，杨磊. 粗糙集属性依赖度强化的应急数据挖掘模型[J]. 计算机工程与应用, 2021, 57(3): 87-93.
[4]	翁晓泳. 基于区块链的云计算数据共享系统研究[J]. 计算机工程与应用, 2021, 57(3): 120-124.
[5]	田倬璟，黄震春，张益农. 云计算环境任务调度方法研究综述[J]. 计算机工程与应用, 2021, 57(2): 1-11.
[6]	马洋，赵旭俊. 基于相关子空间的多源离群检测算法[J]. 计算机工程与应用, 2021, 57(17): 88-95.
[7]	吴东阳，窦建平，李俊. 四旋翼飞行器的数字孪生系统设计[J]. 计算机工程与应用, 2021, 57(16): 237-244.
[8]	李雷孝，邓丹，李杰，王永生. 基于粒子群优化的全比较计算数据分发策略[J]. 计算机工程与应用, 2021, 57(15): 109-117.
[9]	胡恒，金凤林，郎思琪. 移动边缘计算环境中的计算卸载技术研究综述[J]. 计算机工程与应用, 2021, 57(14): 60-74.
[10]	张念蓬，吴旭，朱强. 基于熵的过采样框架[J]. 计算机工程与应用, 2021, 57(13): 96-101.
[11]	陈元文. MapReduce技术在物资调运与配载问题中的应用[J]. 计算机工程与应用, 2021, 57(12): 273-278.
[12]	张博文，刘智，桑国明. 基于核密度波动的异常检测算法[J]. 计算机工程与应用, 2021, 57(12): 132-136.
[13]	饶加旺，马荣华. 改进核密度估计的空间点密度算法[J]. 计算机工程与应用, 2021, 57(11): 260-265.
[14]	余波，台宪青，马治杰. 云计算环境下基于属性和信任的RBAC模型研究[J]. 计算机工程与应用, 2020, 56(9): 84-92.
[15]	仝乐，郝蓉，于佳. 单服务器上的双线性配对安全外包方案[J]. 计算机工程与应用, 2020, 56(9): 131-135.

基于MapReduce的海量数据挖掘技术研究

Research on massive data mining based on MapReduce

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics