计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (14): 144-152.DOI: 10.3778/j.issn.1002-8331.2012-0124
刘学文,王继奎,杨正国,易纪海,李冰,聂飞平
LIU Xuewen, WANG Jikui, YANG Zhengguo, YI Jihai, LI Bing, NIE Feiping
摘要: Self-Training算法的性能很大程度上取决于高置信度样本的识别准确度。受DPC算法启发,利用密度峰值定义样本间的原型关系,并构造出近亲结点图这一新型数据结构。在此基础上,提出了一种近亲结点图编辑的Self-Training算法(self-training algorithm with editing direct relative node graph-DRNG)。DRNG采用假设检验的方法选择高置信度样本,将其加入有标签样本集进行迭代训练。因误分的高密度样本点对Self-Training算法的分类性能影响较大,所以,DRNG综合考虑距离和密度两个方面定义了近亲结点图中割边的非对称权重,增大了高密度点的割边权重,使其落在拒绝域外的概率增加,减小了因其误分类而产生的风险。为了验证DRNG的性能,在8个基准数据集上与类似算法进行对比实验,实验结果验证了DRNG的有效性。