计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (12): 169-174.DOI: 10.3778/j.issn.1002-8331.1904-0072
王立可,崔小莉,张力戈
WANG Like, CUI Xiaoli, ZHANG Lige
摘要:
传统特征工程从关系实体中提取特征完全倚靠人工,繁琐、费时且易出错,深度特征合成算法可以为结构化数据合成大量特征,实现关系实体的自动特征工程。针对深度特征合成算法中合成特征冗余严重且难以筛选的问题,提出一种基于Kullback-Leibler(KL)散度和Hellinger距离结合的属性过滤算法。通过映射连接实体与标记,度量实体中属性的重要程度,对实体中的属性多重过滤,拒绝实体中重要程度低的属性参与深度特征合成算法,得到优化的特征合成结果。选取三种不同类型的公开数据集在不同的机器学习算法上进行实验验证。结果表明,改进的方法能够明显减少算法运行时间与合成数据规模,有效提高合成特征的质量与最终预测准确率。