计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (2): 120-126.DOI: 10.3778/j.issn.1002-8331.1809-0177
涂文博,袁贞明,俞凯
TU Wenbo, YUAN Zhenming, YU Kai
摘要: 在中文信息处理中,分词是一个十分常见且关键的任务。很多中文自然语言处理的任务都需要先进行分词,再根据分割后的单词完成后续任务。近来,越来越多的中文分词采用机器学习和深度学习方法。然而,大多数模型都不同程度的有模型过于复杂、过于依赖人工处理特征、对未登录词表现欠佳等缺陷。提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)的中文分词模型——PCNN(Pure CNN)模型,该模型使用基于字向量上下文窗口的方式对字进行标签分类,具有结构简单、不依赖人工处理、稳定性好、准确率高等优点。考虑到分布式字向量本身的特性,在PCNN模型中不需要卷积的池化(Pooling)操作,卷积层提取的数据特征得到保留,模型训练速度获得较大提升。实验结果表明,在公开的数据集上,模型的准确率达到当前主流神经网络模型的表现水准,同时在对比实验中也验证了无池化层(Pooling Layer)的网络模型要优于有池化层的网络模型。