计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (13): 96-101.DOI: 10.3778/j.issn.1002-8331.2005-0317
张念蓬,吴旭,朱强
ZHANG Nianpeng, WU Xu, ZHU Qiang
摘要:
数据挖掘与机器学习技术日益趋向成熟并且被广泛应用于实际问题的处理中,但该领域仍面临着诸多挑战,如不平衡数据集分类问题。利用过采样技术处理这类问题时,通常只考虑数量的不平衡,而不考虑数据分布是否平衡。利用信息熵度量数据集的局部密度信息,从分布上考虑数据集的不平衡程度,并提出了基于熵的危险集的概念和它的三种使用策略,即基于熵的危险集过采样算法、基于熵的安全集过采样算法和基于熵的自适应过采样算法。竞争性的实验结果表明,这些算法可以有效提升经典过采样算法的性能,为进一步利用信息熵理论研究不平衡数据集提供了成功的实践经验。