大数据下不完备信息系统近似空间的并行算法

计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (15): 101-106.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

大数据下不完备信息系统近似空间的并行算法

姜麟，米允龙，王添

昆明理工大学理学院，昆明 650500

出版日期:2014-08-01 发布日期:2014-08-04

Parallel algorithm for computing incomplete information systems under big data

JIANG Lin, MI Yunlong, WANG Tian

Faculty of Science, Kunming University of Science and Technology, Kunming 650500, China

Online:2014-08-01 Published:2014-08-04

摘要/Abstract

摘要： 上、下近似空间是粗糙理论的重要概念，解决上、下近似问题是海量数据挖掘的基础。经典的近似空间算法不适合处理海量数据，更不适合处理带缺失信息的海量数据问题。为此，通过深度分析带缺失信息的海量数据特征，结合MapReduce编程模型，提出了基于MapReduce框架下近似空间的并行算法，以处理带缺失信息的海量数据，实验结果表明了该并行算法的有效性。

关键词: MapReduce, 数据挖掘, 海量数据, 粗糙集, 不完备信息系统, 近似空间

Abstract: The lower and upper approximations are important concepts in rough set theory. Therefore, the computation of approximations is the basic for improving the massive data mining performance. Classical approximation space algorithm is infeasible for massive data, much less for massive data with missing information. To this end, through deep analysis of the characteristics of massive data with missing information, combining with the MapReduce programming model, a parallel algorithm for computing incomplete information systems using MapReduce is put forward to deal with the massive data with missing information. The experimental results demonstrate that the proposed parallel algorithm is effective.

Key words: MapReduce, data mining, massive data, rough set, incomplete information system, approximations

姜麟，米允龙，王添. 大数据下不完备信息系统近似空间的并行算法[J]. 计算机工程与应用, 2014, 50(15): 101-106.

JIANG Lin, MI Yunlong, WANG Tian. Parallel algorithm for computing incomplete information systems under big data[J]. Computer Engineering and Applications, 2014, 50(15): 101-106.

[1]	宗晓萍，陶泽泽. 基于掌握速度的知识追踪模型[J]. 计算机工程与应用, 2021, 57(6): 117-123.
[2]	高天宇，王庆荣，杨磊. 粗糙集属性依赖度强化的应急数据挖掘模型[J]. 计算机工程与应用, 2021, 57(3): 87-93.
[3]	王庆荣，马辰坤. 面向案例消耗推理的应急物资预测[J]. 计算机工程与应用, 2021, 57(22): 281-287.
[4]	马洋，赵旭俊. 基于相关子空间的多源离群检测算法[J]. 计算机工程与应用, 2021, 57(17): 88-95.
[5]	张念蓬，吴旭，朱强. 基于熵的过采样框架[J]. 计算机工程与应用, 2021, 57(13): 96-101.
[6]	陈元文. MapReduce技术在物资调运与配载问题中的应用[J]. 计算机工程与应用, 2021, 57(12): 273-278.
[7]	张博文，刘智，桑国明. 基于核密度波动的异常检测算法[J]. 计算机工程与应用, 2021, 57(12): 132-136.
[8]	刘玉锋，孙文鑫. 一般多粒度量化软粗糙集模型[J]. 计算机工程与应用, 2021, 57(12): 137-143.
[9]	刘桂枝. 维度变化的不完备混合型数据增量式属性约简[J]. 计算机工程与应用, 2021, 57(12): 161-169.
[10]	饶加旺，马荣华. 改进核密度估计的空间点密度算法[J]. 计算机工程与应用, 2021, 57(11): 260-265.
[11]	王杰，陈志刚，刘加玲，程宏兵. 基于聚类的云隐私行为挖掘技术[J]. 计算机工程与应用, 2020, 56(5): 80-84.
[12]	张博，贾华宇，马珺. RS-GA神经网络无人机受风情况估计[J]. 计算机工程与应用, 2020, 56(4): 209-213.
[13]	牟恩，张贤勇，姚岳松，邓切. 邻域近似条件熵的特定类属性约简及启发算法[J]. 计算机工程与应用, 2020, 56(24): 175-180.
[14]	王子龙，李进，宋亚飞. 基于距离和权重改进的K-means算法[J]. 计算机工程与应用, 2020, 56(23): 87-94.
[15]	张建华，李方方，杨岚. 融合PFS与RS的案例知识供需匹配研究[J]. 计算机工程与应用, 2020, 56(23): 139-145.

大数据下不完备信息系统近似空间的并行算法

Parallel algorithm for computing incomplete information systems under big data

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics