计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (9): 9-22.DOI: 10.3778/j.issn.1002-8331.2012-0539
许昊,张凯,田英杰,种法广,王子超
XU Hao, ZHANG Kai, TIAN Yingjie, CHONG Faguang, WANG Zichao
摘要:
深度学习的迅速发展使得图像描述效果得到显著提升,针对基于深度神经网络的图像描述方法及其研究现状进行详细综述。图像描述算法结合计算机视觉和自然语言处理的知识,根据图像中检测到的内容自动生成自然语言描述,是场景理解的重要部分。图像描述任务中,一般采用由编码器和解码器组成的基本架构。改进编码器或解码器,应用生成对抗网络、强化学习、无监督学习以及图卷积神经网络等方法能有效提高图像描述算法的性能。对每类方法的代表模型算法的效果以及优缺点进行分析,并介绍适用的公开数据集,在此基础上进行对比实验。对图像描述面临的挑战以及未来工作的发展方向做出展望。