计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (23): 131-138.
张焱凯1,包 芳2,王士同1
ZHANG Yankai1, BAO Fang2, WANG Shitong1
摘要: 以往研究者都从公式的合理性出发研究迁移学习和传统机器学习,但他们忽视了对问题的整体性考虑,致使在具体应用到文本分类问题时,无法实现彻底的分类。通过研究文本分类的整个过程,在k-均值算法中使用余弦距离,显著提高了实验结果;提出保护型迭代思想,同时弃用传统的词特征空间,采用隐空间作为特征向量空间,实施归一化约束。以CCI算法为例,结合提出的改进思想,产生改进算法PCCI,在降低计算复杂度的同时显著提高迁移学习的分类正确率。通过在数据集20-NewsGroups和Reuters-21578上测试并与现有其他迁移学习算法进行比较,证明了该改进算法的优越性。