Hadoop平台的海量数据并行随机抽样

计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (20): 115-118.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

Hadoop平台的海量数据并行随机抽样

宛婉，周国祥

合肥工业大学计算机与信息学院，合肥 230009

出版日期:2014-10-15 发布日期:2014-10-28

Massive data parallel random sampling based on hadoop

WAN Wan, ZHOU Guoxiang

School of Computer and Information, Hefei University of Technology, Hefei 230009, China

Online:2014-10-15 Published:2014-10-28

摘要/Abstract

摘要： 在“信息爆炸”的当今社会，海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的同时，研究并行化数据随机抽样进一步降低处理的数据规模。提出一种单次扫描即可实现清理脏数据并实现等概率抽样的mapreduce并行抽样算法。在hadoop平台上实现并与普通随机抽样方法进行比较，得出其时间效率非常高，是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。

关键词: 云计算, hadoop, mapreduce, 并行计算, 数据挖掘, 随机抽样

Abstract: In today’s “information explosion” society, data mining, because of mass data, faces a new challenges. When data mining turns to cloud computing platform to realize parallel, the study of parallel data random sampling further reduces the size of the data size. This paper presents a mapreduce parallel sampling algorithm which not only can clean up dirty data but also achieves the goal of equal probability sampling. The algorithm just needs to scan processed data only one time. It runs this algorithm in the hadoop platform and compares its performance with common random sampling. As a result, this new algorithm obtains a very high time efficiency. It is a kind of effective method which lays a good foundation for doing research on sampling in future. It can also promote data mining in the condition of facing mass data.

Key words: cloud computing, hadoop, mapreduce, parallel computing, data mining, random sampling

宛婉，周国祥. Hadoop平台的海量数据并行随机抽样[J]. 计算机工程与应用, 2014, 50(20): 115-118.

WAN Wan, ZHOU Guoxiang. Massive data parallel random sampling based on hadoop[J]. Computer Engineering and Applications, 2014, 50(20): 115-118.

[1]	宗晓萍，陶泽泽. 基于掌握速度的知识追踪模型[J]. 计算机工程与应用, 2021, 57(6): 117-123.
[2]	王凤琴，柯亨进. 卷积神经网络及其分析在抑郁症判别中的应用[J]. 计算机工程与应用, 2021, 57(5): 245-250.
[3]	高天宇，王庆荣，杨磊. 粗糙集属性依赖度强化的应急数据挖掘模型[J]. 计算机工程与应用, 2021, 57(3): 87-93.
[4]	翁晓泳. 基于区块链的云计算数据共享系统研究[J]. 计算机工程与应用, 2021, 57(3): 120-124.
[5]	田倬璟，黄震春，张益农. 云计算环境任务调度方法研究综述[J]. 计算机工程与应用, 2021, 57(2): 1-11.
[6]	马洋，赵旭俊. 基于相关子空间的多源离群检测算法[J]. 计算机工程与应用, 2021, 57(17): 88-95.
[7]	吴东阳，窦建平，李俊. 四旋翼飞行器的数字孪生系统设计[J]. 计算机工程与应用, 2021, 57(16): 237-244.
[8]	冯凯，李婧. k元n方体网络的子网络可靠性[J]. 计算机工程与应用, 2021, 57(16): 83-89.
[9]	李雷孝，邓丹，李杰，王永生. 基于粒子群优化的全比较计算数据分发策略[J]. 计算机工程与应用, 2021, 57(15): 109-117.
[10]	胡恒，金凤林，郎思琪. 移动边缘计算环境中的计算卸载技术研究综述[J]. 计算机工程与应用, 2021, 57(14): 60-74.
[11]	李健，张大伟，姜晓明，向立云. 并行化洪水演进模拟研究综述[J]. 计算机工程与应用, 2021, 57(13): 1-7.
[12]	孙明，陈昕. 面向卷积神经网络的硬件加速器设计方法[J]. 计算机工程与应用, 2021, 57(13): 77-84.
[13]	张念蓬，吴旭，朱强. 基于熵的过采样框架[J]. 计算机工程与应用, 2021, 57(13): 96-101.
[14]	陈元文. MapReduce技术在物资调运与配载问题中的应用[J]. 计算机工程与应用, 2021, 57(12): 273-278.
[15]	张博文，刘智，桑国明. 基于核密度波动的异常检测算法[J]. 计算机工程与应用, 2021, 57(12): 132-136.

Hadoop平台的海量数据并行随机抽样

Massive data parallel random sampling based on hadoop

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics