依赖数据密度的K均值初始化调优

计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (11): 139-144.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

依赖数据密度的K均值初始化调优

沈国珍

浙江树人大学信息科技学院，杭州 310015

出版日期:2014-06-01 发布日期:2015-04-08

Improved k-means initialization method based on data density

SHEN Guozhen

Institute of Information Technology, Zhejiang Shuren University, Hangzhou 310015, China

Online:2014-06-01 Published:2015-04-08

摘要/Abstract

摘要： K均值算法虽被广泛应用，但其算法性能和算法稳定性严重依赖算法的初始化过程，尤其是初始聚类中心的选取。比较合理的聚类中心应该出现在数据密集的区域，基于这个假设，提出了一种依赖数据局部密度的初始化调优算法。该算法以数据的局部密度函数为依据，并在高密度区域选取初始聚类中心。与同类算法相比，该算法有如下特点：能够自主发现数据集中数据分布的局部密集度；对类别数目较多的数据表现出更好的性能；对离群点和噪声鲁棒；易于实现。

关键词: 聚类, K均值算法, 聚类中心, 密度函数

Abstract: K-means is a widely used clustering method in many communities. However, the initial procedure affects the clustering results seriously, especially the initial centroids. Reasonable initial centroids should be in the region with high data density, so an improved k-means initialization method is proposed based on local data density. Firstly, a definition of local data density function is given, and then initial centroids are chosen based on this definition. Experimental result shows that the proposed method has several advantages： it can find the data densities effective and the reasonable candidates of initial centroids, it shows outstanding performance when the number of categories is related large, it is robust to outliers and noisy, it is easy to implement.

Key words: clustering, k-means, initialization, data density

沈国珍. 依赖数据密度的K均值初始化调优[J]. 计算机工程与应用, 2014, 50(11): 139-144.

SHEN Guozhen. Improved k-means initialization method based on data density[J]. Computer Engineering and Applications, 2014, 50(11): 139-144.

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	34

	来源	本网站

	次数	34
	比例	100%

摘要

222

最新录用	在线预览	正式出版

0	0	222

	来源	本网站

	次数	222
	比例	100%

[1]	兰红，黄敏. 融合KNN优化的密度峰值和FCM聚类算法[J]. 计算机工程与应用, 2021, 57(9): 81-88.
[2]	郭晓静，隋昊达. 改进YOLOv3在机场跑道异物目标检测中的应用[J]. 计算机工程与应用, 2021, 57(8): 249-255.
[3]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[4]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[5]	杨芳，尹曦，司建辉，刘宏媛，汪雪. 基于侧重点聚类的数学表达式相似度计算方法[J]. 计算机工程与应用, 2021, 57(6): 88-93.
[6]	赵凡，张琳，闻治泉，杨林林，蔺广逢. 一种直接高效的自然场景汉字逼近定位方法[J]. 计算机工程与应用, 2021, 57(6): 159-167.
[7]	彭启慧，宣士斌，高卿. 分布的自动阈值密度峰值聚类算法[J]. 计算机工程与应用, 2021, 57(5): 71-78.
[8]	李勇振，廖湖声. 基于图卷积神经网络的多视角聚类[J]. 计算机工程与应用, 2021, 57(5): 115-122.
[9]	王昌龙，张远东，缪宏，杨煜恒. 双通道卷积神经网络在南瓜病害识别上的应用[J]. 计算机工程与应用, 2021, 57(5): 183-189.
[10]	胡晓敏，王明丰，张首荣，李敏. 用于文本聚类的新型差分进化粒子群算法[J]. 计算机工程与应用, 2021, 57(4): 61-67.
[11]	王俊玲，卢新明. 基于语义相关的视频关键帧提取算法[J]. 计算机工程与应用, 2021, 57(4): 192-198.
[12]	王芙银，张德生，张晓. 结合鲸鱼优化算法的自适应密度峰值聚类算法[J]. 计算机工程与应用, 2021, 57(3): 94-102.
[13]	陈俊丰，郑中团. WKMeans与SMOTE结合的不平衡数据过采样方法[J]. 计算机工程与应用, 2021, 57(23): 106-112.
[14]	张忠林，赵昱，闫光辉. 自然邻居密度极值聚类算法[J]. 计算机工程与应用, 2021, 57(23): 200-210.
[15]	梅婕，魏圆圆，许桃胜. 基于密度峰值多起始中心的融合聚类算法[J]. 计算机工程与应用, 2021, 57(22): 78-85.

依赖数据密度的K均值初始化调优

Improved k-means initialization method based on data density

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐 0

Metrics