摘要: 在“信息爆炸”的当今社会,海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的同时,研究并行化数据随机抽样进一步降低处理的数据规模。提出一种单次扫描即可实现清理脏数据并实现等概率抽样的mapreduce并行抽样算法。在hadoop平台上实现并与普通随机抽样方法进行比较,得出其时间效率非常高,是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。
宛 婉,周国祥. Hadoop平台的海量数据并行随机抽样[J]. 计算机工程与应用, 2014, 50(20): 115-118.
WAN Wan, ZHOU Guoxiang. Massive data parallel random sampling based on hadoop[J]. Computer Engineering and Applications, 2014, 50(20): 115-118.