计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (1): 159-161.
林永民1,吕震宇1,赵 爽1,朱卫东2
LIN Yong-min1,LU Zhen-yu1,ZHAO Shuang1,ZHU Wei-dong2
摘要: 连续属性的离散化是数据预处理的重要工作。论文分析了基于熵的离散化方法的不足,从估计训练样本的概率分布的角度出发,提出基于样本分布与熵相结合的处理数值型属性的方法。基于UCI数据的实验结果表明,该方法不仅具有比较好的判决精度,而且具有更快的计算速度。