计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (12): 220-224.
王晓华,苏宏业,渠 瑜,褚 健
WANG Xiaohua,SU Hongye,QU Yu,CHU Jian
摘要: 针对电信欠费挖掘主题,结合电信欠费数据非平衡的特点,重点研究了缺失与离群数据对分类结果的影响,从而提出了一个面向电信欠费挖掘的数据质量评估体系(TIM-DQAS):对于缺失评估,提出了一种基于类分布差异的属性加权算法,以衡量输入属性的缺失代价;对于离群评估,分析了非平衡数据中的离群点对分类结果的影响,提出离群度的概念,以量化离群点的影响。基于某城市电信小灵通数据的对比实验,给出了评估结果的参照值,验证了评估策略的有效性。