基于属性值信息熵的KNN改进算法

doi:10.3778/j.issn.1002-8331.2010.03.034

计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (3): 115-117.DOI: 10.3778/j.issn.1002-8331.2010.03.034

• 数据库、信号与信息处理 • 上一篇下一篇

基于属性值信息熵的KNN改进算法

童先群，周忠眉

漳州师范学院计算机科学与工程系，福建漳州 363000

收稿日期:2009-10-12 修回日期:2009-11-30 出版日期:2010-01-21 发布日期:2010-01-21
通讯作者: 童先群

Enhancement of K-nearest neighbor algorithm based on information entropy of attribute value

TONG Xian-qun，ZHOU Zhong-mei

Department of Computer Science & Engineering，Zhangzhou Normal University，Zhangzhou，Fujian 363000，China

Received:2009-10-12 Revised:2009-11-30 Online:2010-01-21 Published:2010-01-21
Contact: TONG Xian-qun

摘要/Abstract

摘要： 为了克服传统KNN算法，距离加权-KNN算法在距离定义及投票方式上的不足，提出了一种基于属性值对类别重要性的改进算法Entropy-KNN。首先定义两个样本间的距离为相同属性值的平均信息熵，此距离可通过重要属性值有效度量样本之间的相似程度，其次算法Entropy-KNN根据上述定义的距离选取与待测试样本距离最小的K个近邻，最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。在蘑菇数据集上的实验表明，Entropy-KNN算法的分类准确率高于传统KNN算法和距离加权KNN算法。

关键词: 分类, KNN算法, 属性值, 信息熵

Abstract: In order to improve traditional KNN and KNN with weighted distance，which is on the distance definition and test mode，an improved algorithm entropy-KNN based on the classification importance of an attribute value is proposed.At first，a distance of the two samples is defined as the average information entropy of the same attribute values.The distance can effectively measure the similarity degree of the two samples.Secondly，the Entropy-KNN selects the K nearest neighbors by the distance above.Finally，the class label of the test sample is decided by the average distance and the numbers on the respective class.The experimental results on mushroom data set show this approach has much better than traditional KNN and KNN with weighted distance.

Key words: classification, K-nearest neighbor algorithm, attribute value, information entropy

中图分类号:

TP391

童先群，周忠眉. 基于属性值信息熵的KNN改进算法[J]. 计算机工程与应用, 2010, 46(3): 115-117.

TONG Xian-qun，ZHOU Zhong-mei. Enhancement of K-nearest neighbor algorithm based on information entropy of attribute value[J]. Computer Engineering and Applications, 2010, 46(3): 115-117.

[1]	王永贵，李倩玉. 基于KNN-GBDT的混合协同过滤推荐算法[J]. 计算机工程与应用, 2021, 57(9): 103-108.
[2]	杨春霞，李欣栩，吴佳君，刘天宇. 基于注意力交互机制的层次网络情感分类[J]. 计算机工程与应用, 2021, 57(9): 134-139.
[3]	张韩钰，吴志昊，徐勇，陈斌. 增强卷积神经网络的人脸篡改检测方法[J]. 计算机工程与应用, 2021, 57(8): 220-224.
[4]	李俊丽. Spark平台下类别数据互信息计算的并行化[J]. 计算机工程与应用, 2021, 57(7): 95-100.
[5]	韩卫宇，程龙生. 结合马田系统-SVM的滚动轴承故障模式分类研究[J]. 计算机工程与应用, 2021, 57(6): 239-246.
[6]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[7]	韩东方，吐尔地·托合提，艾斯卡尔·艾木都拉. 问答系统中问句分类方法研究综述[J]. 计算机工程与应用, 2021, 57(6): 10-21.
[8]	黄金杰，蔺江全，何勇军，何瑾洁，王雅君. 局部语义与上下文关系的中文短文本分类算法[J]. 计算机工程与应用, 2021, 57(6): 94-100.
[9]	李硕，梁毅. 面向Spark的批处理应用执行时间预测模型[J]. 计算机工程与应用, 2021, 57(5): 79-87.
[10]	王凤琴，柯亨进. 卷积神经网络及其分析在抑郁症判别中的应用[J]. 计算机工程与应用, 2021, 57(5): 245-250.
[11]	万亚玲，钟锡武，刘慧，钱育蓉. 卷积神经网络在高光谱图像分类中的应用综述[J]. 计算机工程与应用, 2021, 57(4): 1-10.
[12]	王鹏，叶学义，王涛，钱丁炜. 双偏差双空间局部方向模式的人脸识别[J]. 计算机工程与应用, 2021, 57(4): 91-99.
[13]	陶体伟，刘明霞，王明亮，王琳琳，杨德运，张强. 基于有效距离的低秩表示[J]. 计算机工程与应用, 2021, 57(4): 141-147.
[14]	郑诚，董春阳，黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
[15]	佘海龙，解山娟，邹静洁. 标准分数降维的3D-CNN高光谱遥感图像分类[J]. 计算机工程与应用, 2021, 57(4): 169-175.

基于属性值信息熵的KNN改进算法

Enhancement of K-nearest neighbor algorithm based on information entropy of attribute value

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics