计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (20): 208-211.DOI: 10.3778/j.issn.1002-8331.2008.20.063
廖志芳1,樊晓平1,陈宇宙1,廖志宁2,瞿志华1,3
LIAO Zhi-fang1,FAN Xiao-ping1,CHEN Yu-zhou1,LIAO Zhi-ning2,QU Zhi-hua1,3
摘要: 数据分类是数据挖掘技术在医疗数据分析中的一个重要应用,在分析了医疗数据特点后,以大肠早癌诊断数据为例,提出了利用计数最近邻算法对其进行分类的思想;同时在分析该算法性能的基础上,提出了基于检索树和样本密度的计数最近邻新算法对改数据进行分析,以检索树的构建来提高原算法的计算效率,基于全局密度、K-密度的改进算法来提高原算法的精确度。通过实验证明新算法在大肠早癌的数据分析中,其计算复杂度、存储空间和数据分类精确度都得到了较大的提高,同时新算法适应于数值数据、文本数据以及混合数据的分类。