计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (11): 162-167.DOI: 10.3778/j.issn.1002-8331.2003-0195
姚佳奇,徐正国,燕继坤,王科人
YAO Jiaqi, XU Zhengguo, YAN Jikun, WANG Keren
摘要:
针对PU(Positive and Unlabeled)文本分类问题,提出了一种基于图卷积网络的PU文本分类算法(GCN-PU),基本思想是给未标注样本加以不同的损失权重。将未标注样本全部视为负类样本,用以训练基于卷积神经网络的文本分类器;取卷积神经网络的倒数第二层的向量为文本的特征向量,以及对应的类别概率,作为图卷积网络的输入;利用图卷积网络得出的类别概率计算每个未标注样本的损失权重,重新训练文本分类器。不断重复上述三个步骤,直到算法参数稳定。在公开数据集20newsgroup上的实验结果表明,GCN-PU算法优于现有的方法,尤其在正类样本较少的情况下。