计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (19): 121-127.DOI: 10.3778/j.issn.1002-8331.1807-0140
王德贤,何先波,贺春林,周坤,陈敏治
WANG Dexian, HE Xianbo, HE Chunlin, ZHOU Kun, CHEN Minzhi
摘要: 在大数据领域中预测高维稀疏矩阵中的缺失数据,通常采用随机梯度下降算法构造隐语义模型来对缺失数据进行预测。在随机梯度下降算法来求解模型的过程中经常加入正则化项来提高模型的性能,由于[L1]正则化项不可导,目前在隐语义模型中主要通过加入[L2]正则化项来构建隐语义模型(SGD_LF)。但因为[L1]正则化项能提高模型的稀疏性增强模型求解能力,因此提出一种基于[L1]和[L2]正则化约束的隐语义(SPGD_LF)模型。在通过构建目标函数时,同时引入[L1]和[L2]正则化项。由于目标函数满足利普希茨条件,并通过二阶的泰勒展开对目标函数进行逼近,构造出随机梯度下降的求解器,在随机梯度下降求解隐语义模型的过程中通过软阈值来处理[L1]正则化项所对应的边界优化问题。通过此优化方案,可以更好地表达目标矩阵中的已知数据在隐语义空间中的特征和对应的所属社区关系,提高了模型的泛化能力。通过在大型工业数据集上的实验表明,SPGD_LF模型的预测精度、稀疏性和收敛速度等性能都有显著提高。