数据挖掘中基于核的多重填补的一种新算法

doi:10.3778/j.issn.1002-8331.2008.31.045

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (31): 156-158.DOI: 10.3778/j.issn.1002-8331.2008.31.045

• 数据库、信号与信息处理 • 上一篇下一篇

数据挖掘中基于核的多重填补的一种新算法

苏毅娟

广西师范学院数学与计算机系，南宁 530023

收稿日期:2007-12-03 修回日期:2008-02-03 出版日期:2008-11-01 发布日期:2008-11-01
通讯作者: 苏毅娟

New kernel-based multiple imputation algorithm for data mining

SU Yi-juan

Department of Mathematic and Computer Science，Guangxi Teachers Education University，Nanning 530023，China

Received:2007-12-03 Revised:2008-02-03 Online:2008-11-01 Published:2008-11-01
Contact: SU Yi-juan

摘要/Abstract

摘要： 在数据挖掘预处理中，数据缺失是最为常见的数据预处理问题之一。通常对所要挖掘的数据分布形式没有任何先验知识。在这种情况下，非参回归分析方法可以为数据缺失的处理提供一种效果很好的解决途径。据此，在缺失机制是随机缺失（Missing at Random，MAR）和完全随机缺失（Missing Completely at Random，MCAR）的条件下，提出了一种处理数据缺失的新方法，即基于核函数的非参多重填补算法。模拟实验结果表明，算法的置信区间的覆盖率，区间长度，以及相对效率都比常用的NORM算法要好。

关键词: 多重填补, 缺失数据, 核函数, 非参

Abstract: In the preprocessing of data mining，data missing is one of the most common problems in data preprocessing.Quite frequently，the author have little priori knowledge about distribution of the data we want to mine.Under this condition，non-parametric regression provides an effective approach to handle the data missing.Accordingly，a new kernel-based non-parametric Multiple Imputation（MI） algorithm is proposed，under two missing mechanisms，MAR（Missing At Random） and MCAR（Missing Completely At Random）.Experiments over simulation data show that our algorithm performs much better than the traditional NORM method，in the coverage of confidence interval，the interval length，and the relative efficiency.

Key words: Multiple Imputation（MI）, missing values, kernel function, non-parametric

苏毅娟. 数据挖掘中基于核的多重填补的一种新算法[J]. 计算机工程与应用, 2008, 44(31): 156-158.

SU Yi-juan. New kernel-based multiple imputation algorithm for data mining[J]. Computer Engineering and Applications, 2008, 44(31): 156-158.

[1]	邓利芳，党建武，王阳萍，王松. 结合混合核特征映射的空域图像隐写分析[J]. 计算机工程与应用, 2021, 57(9): 118-125.
[2]	熊中敏，郭怀宇，吴月欣. 缺失数据处理方法研究综述[J]. 计算机工程与应用, 2021, 57(14): 27-38.
[3]	谢艺菲，卢琪，刘鑫，胡亚豪，潘志松，陈浩. 基于图的多层次注意力事实验证算法[J]. 计算机工程与应用, 2021, 57(10): 146-153.
[4]	陈海洋，刘喜庆，环晓敏. 一步预测的SVDDBN缺失数据插补算法[J]. 计算机工程与应用, 2020, 56(7): 81-87.
[5]	赵童，黄钲，王秀超，李淼，张昀，郑秀娟，刘凯. 心理测试中掩饰行为的识别研究[J]. 计算机工程与应用, 2020, 56(20): 158-164.
[6]	于千城，於志文，王柱. 对抗样本训练图分类器进行模型推理质量评估[J]. 计算机工程与应用, 2020, 56(17): 142-149.
[7]	魏锋涛，卢凤仪. 融合核函数在改进径向基代理模型中的应用[J]. 计算机工程与应用, 2019, 55(7): 58-65.
[8]	石凯1，2，聂富强1，孙峰2. 多维数据判别分析的非参核密度算法研究[J]. 计算机工程与应用, 2019, 55(6): 8-12.
[9]	张晓琴1，刘玲1，郭鑫垚2. 基于HSIC0的类间非线性相关系数度量[J]. 计算机工程与应用, 2019, 55(3): 46-49.
[10]	季挺，张华. 基于CMAC的非参数化近似策略迭代增强学习[J]. 计算机工程与应用, 2019, 55(2): 128-136.
[11]	罗康洋，王国强. L-SMOTE与SVM结合的不平衡数据集分类研究[J]. 计算机工程与应用, 2019, 55(17): 55-62.
[12]	刘吉超，王锋，宋鹏. 缺失数据的维数增量式特征选择[J]. 计算机工程与应用, 2019, 55(17): 95-99.
[13]	颜学龙，陈卓. PSO优化多核RVM的模拟电路故障预测[J]. 计算机工程与应用, 2019, 55(12): 140-144.
[14]	王一宾，田文泉，程玉胜，裴根生. 基于核极限学习机的标记分布学习[J]. 计算机工程与应用, 2018, 54(24): 128-135.
[15]	周水生，王保军，安亚利. 基于LS-SVM方法求高阶线性ODE近似解[J]. 计算机工程与应用, 2018, 54(23): 51-56.

数据挖掘中基于核的多重填补的一种新算法

New kernel-based multiple imputation algorithm for data mining

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics