计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (21): 156-159.DOI: 10.3778/j.issn.1002-8331.2010.21.044

• 数据库、信号与信息处理 • 上一篇    下一篇

可拓K近邻算法在数据聚类分析中的应用

杨 仪,向长城,魏代俊   

  1. 湖北民族学院 理学院,湖北 恩施 445000
  • 收稿日期:2009-01-06 修回日期:2009-03-23 出版日期:2010-07-21 发布日期:2010-07-21
  • 通讯作者: 杨 仪

Data cluster based on extension K nearest neighbor algorithm

YANG Yi,XIANG Chang-cheng,WEI Dai-jun   

  1. College of Science,Hubei University for Nationalities,Enshi,Hubei 445000,China
  • Received:2009-01-06 Revised:2009-03-23 Online:2010-07-21 Published:2010-07-21
  • Contact: YANG Yi

摘要: 针对区间值数据的数据聚类问题,根据可拓学关联函数的定义,提出可拓距离的概念来度量数据之间的距离,利用K近邻的思想,根据可拓距离的大小对数据集的目标属性进行投票选择进行分类,设计了可拓K近邻算法(Extension K Nearest Neighbor,EKNN)。最后利用UCI的两个基准数据集Iris植物样本数据和糖尿病数据库PIDD进行验证,首先通过免疫网络约简算法对条件属性进行最小属性约简,然后利用EKNN算法分析和比较不同最小约简属性下的分类准确率。

关键词: 数据聚类, 可拓距离, 可拓K近邻算法, 属性约简

Abstract: For the data cluster problem of interval data,the extension distance is proposed by extension conjunction function.The Extension K Nearest Neighbor(EKNN) algorithm is designed by the idea of K nearest neighbor and extension distance.Finally,the experiment of Iris datasets and PIDD datasets is verified by the EKNN,and the classification accuracy is analysed and compared under the different minimal reduction attribute.

Key words: data cluster, extension distance, extension K nearest neighbor, attribute reduction

中图分类号: