基于AP聚类的不完整大数据填充

计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (10): 123-127.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

基于AP聚类的不完整大数据填充

冷泳林1，2，张清辰2，鲁富宇1

1.渤海大学信息科学与技术学院，辽宁锦州 121000
2.大连理工大学软件学院，辽宁大连 116620

出版日期:2015-05-15 发布日期:2015-05-15

Incomplete big data imputation algorithm based on AP clustering

LENG Yonglin1，2, ZHANG Qingchen2, LU Fuyu1

1.College of Information Science and Technology, Bohai University, Jinzhou, Liaoning 121000, China
2.School of Software Technology, Dalian University of Technology, Dalian, Liaoning 116620, China

Online:2015-05-15 Published:2015-05-15

摘要/Abstract

摘要： 不完整数据的分析与填充一直是大数据处理的热点研究课题，传统的分析方法无法对不完整数据直接聚类，大部分方法先填充缺失值，然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充，使得填充值容易受到噪声的干扰，导致填充结果不精确，进而造成聚类精度很低。提出一种不完整数据聚类算法，对不完全信息系统的相似度公式进行重新定义，给出不完整数据对象间的相似度度量方式，进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中，通过同一类对象的属性值对缺失值进行填充，避免噪声对填充值的干扰，提高填充结果的精确性。实验结果表明，提出的方法能够对不完整数据进行聚类，并有效提高缺失数据的填充精度。

关键词: 不完整大数据, 聚类分析, 数据填充

Abstract: Imputing missing values is a hot research topic in big data processing. Incomplete big data could not be clustered directly, which must be preprocessed, such as inputing missing values. Traditional algorithms, which fill missing values depending on the statistical theory of the data set, are corrupted by noise data, which decreases the imputation accuracy. The paper proposes a novel algorithm to fill missing values based on AP clustering, which clusters incomplete big data directly by proposing a new similarity metrics. The data in the same cluster is utilized to fill missing values which aims at avoiding noise corruption to improve the filling accuracy. Experiment demonstrates the proposed algorithm can cluster the incomplete big data directly and improve the accuracy for filling missing data effectively.

Key words: incomplete big data, clustering analysis, data imputation

冷泳林1，2，张清辰2，鲁富宇1. 基于AP聚类的不完整大数据填充[J]. 计算机工程与应用, 2015, 51(10): 123-127.

LENG Yonglin1，2, ZHANG Qingchen2, LU Fuyu1. Incomplete big data imputation algorithm based on AP clustering[J]. Computer Engineering and Applications, 2015, 51(10): 123-127.

[1]	郭晓静，隋昊达. 改进YOLOv3在机场跑道异物目标检测中的应用[J]. 计算机工程与应用, 2021, 57(8): 249-255.
[2]	安宁，江思源，唐晨，杨矫云. 融合单纯形映射与熵加权的聚类方法[J]. 计算机工程与应用, 2020, 56(9): 148-155.
[3]	衣俊艳，杜小鹏. 具有中心移动特性的弹性网络聚类算法研究[J]. 计算机工程与应用, 2020, 56(24): 50-58.
[4]	衣俊艳，吴博雅，雍巧玲. 具有加权特性的弹性网络聚类算法研究[J]. 计算机工程与应用, 2020, 56(22): 55-65.
[5]	罗计根，杜建强，聂斌，李欢，聂建华，陈裕凤. 一种聚类欠采样策略的随机森林优化方法[J]. 计算机工程与应用, 2020, 56(22): 166-172.
[6]	马京晖，潘巍，王茹. 基于K-means聚类的三维点云分类[J]. 计算机工程与应用, 2020, 56(17): 181-186.
[7]	蒋世豪，江洪. 基于GDAL的遥感图像变化检测技术[J]. 计算机工程与应用, 2020, 56(16): 169-175.
[8]	贾露，张德生，吕端端. 物理学优化的密度峰值聚类算法[J]. 计算机工程与应用, 2020, 56(13): 47-53.
[9]	陈胜发，贾瑞玉. 基于残差和密度网格的簇心自确认聚类算法[J]. 计算机工程与应用, 2020, 56(12): 149-155.
[10]	黄建新，袁杰. 三维空间机器人主动嗅觉烟羽源自主定位策略[J]. 计算机工程与应用, 2020, 56(12): 223-230.
[11]	雍巧玲，衣俊艳. 具有动态特性的聚类弹性网络算法研究[J]. 计算机工程与应用, 2019, 55(8): 102-109.
[12]	余炳光，刘冬梅. 特征逐减的可能性模糊聚类算法[J]. 计算机工程与应用, 2019, 55(19): 58-65.
[13]	王阳，唐朝晖，王紫勋，牛亚辉. 选用改进高斯过程回归模型的碳排放短期预测[J]. 计算机工程与应用, 2018, 54(23): 246-251.
[14]	宋飞豹，贾瑞玉. 精英遗传K-medoids聚类算法[J]. 计算机工程与应用, 2018, 54(22): 144-149.
[15]	黄小红，赵逢禹. 利用分支路径差异分析的故障定位研究[J]. 计算机工程与应用, 2018, 54(13): 246-251.

基于AP聚类的不完整大数据填充

Incomplete big data imputation algorithm based on AP clustering

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics