面向海量数据的K-means聚类优化算法

计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (14): 143-147.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

面向海量数据的K-means聚类优化算法

冀素琴，石洪波

山西财经大学信息管理学院，太原 030031

出版日期:2014-07-15 发布日期:2014-08-04

Optimized K-means clustering algorithm for massive data

JI Suqin, SHI Hongbo

School of Information Management, Shanxi University of Finance & Economics, Taiyuan 030031, China

Online:2014-07-15 Published:2014-08-04

摘要/Abstract

摘要： 针对集中式系统框架难以进行海量数据聚类分析的问题，提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架，引入Canopy聚类，优化K-means算法初始中心的选取，改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量，具有较高的执行效率以及优良的扩展性，适合用于海量数据的聚类分析。

关键词: 海量数据, 聚类, MapReduce, K-means算法, Canopy算法

Abstract: In order to solve the problem of the clustering on massive data under the framework of a centralized system, an optimized algorithm to K-means clustering based on MapReduce is proposed. By using MapReduce parallel programming framework and importing Canopy clustering, this algorithm optimizes initial clustering center, improves communication mode and calculation mode in iteration. The experimental results show that this algorithm can effectively improve the quality of clustering, and can have higher implementation efficiency, its good scalability, thus it fits to clustering analysis on massive data.

Key words: massive data, clustering, MapReduce, K-means algorithm, Canopy algorithm

冀素琴，石洪波. 面向海量数据的K-means聚类优化算法[J]. 计算机工程与应用, 2014, 50(14): 143-147.

JI Suqin, SHI Hongbo. Optimized K-means clustering algorithm for massive data[J]. Computer Engineering and Applications, 2014, 50(14): 143-147.

[1]	兰红，黄敏. 融合KNN优化的密度峰值和FCM聚类算法[J]. 计算机工程与应用, 2021, 57(9): 81-88.
[2]	郭晓静，隋昊达. 改进YOLOv3在机场跑道异物目标检测中的应用[J]. 计算机工程与应用, 2021, 57(8): 249-255.
[3]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[4]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[5]	杨芳，尹曦，司建辉，刘宏媛，汪雪. 基于侧重点聚类的数学表达式相似度计算方法[J]. 计算机工程与应用, 2021, 57(6): 88-93.
[6]	赵凡，张琳，闻治泉，杨林林，蔺广逢. 一种直接高效的自然场景汉字逼近定位方法[J]. 计算机工程与应用, 2021, 57(6): 159-167.
[7]	彭启慧，宣士斌，高卿. 分布的自动阈值密度峰值聚类算法[J]. 计算机工程与应用, 2021, 57(5): 71-78.
[8]	李勇振，廖湖声. 基于图卷积神经网络的多视角聚类[J]. 计算机工程与应用, 2021, 57(5): 115-122.
[9]	王昌龙，张远东，缪宏，杨煜恒. 双通道卷积神经网络在南瓜病害识别上的应用[J]. 计算机工程与应用, 2021, 57(5): 183-189.
[10]	胡晓敏，王明丰，张首荣，李敏. 用于文本聚类的新型差分进化粒子群算法[J]. 计算机工程与应用, 2021, 57(4): 61-67.
[11]	王俊玲，卢新明. 基于语义相关的视频关键帧提取算法[J]. 计算机工程与应用, 2021, 57(4): 192-198.
[12]	王芙银，张德生，张晓. 结合鲸鱼优化算法的自适应密度峰值聚类算法[J]. 计算机工程与应用, 2021, 57(3): 94-102.
[13]	陈俊丰，郑中团. WKMeans与SMOTE结合的不平衡数据过采样方法[J]. 计算机工程与应用, 2021, 57(23): 106-112.
[14]	张忠林，赵昱，闫光辉. 自然邻居密度极值聚类算法[J]. 计算机工程与应用, 2021, 57(23): 200-210.
[15]	梅婕，魏圆圆，许桃胜. 基于密度峰值多起始中心的融合聚类算法[J]. 计算机工程与应用, 2021, 57(22): 78-85.

面向海量数据的K-means聚类优化算法

Optimized K-means clustering algorithm for massive data

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics