计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (20): 162-164.DOI: 10.3778/j.issn.1002-8331.2008.20.049
陈 龙,范瑞霞,高 琪
CHEN Long,FAN Rui-xia,GAO Qi
摘要: 文本信息处理正朝着语义的方向发展,而当今主流的文本表示模型——向量空间模型(VSM)以单个词语作为特征项,这忽略了自然语言中词语之间的语义联系、导致文本中大量存在同义词与多义词现象,从而严重地降低了文本信息处理的精度。应用自然语言处理相关技术和成果,把概念和概念距离引入向量空间模型,从语义、概念的角度出发,以概念作为文本的特征项,建立基于概念的文本表示模型。实验证明:这种方法能较好地解决同义词和多义词问题、提高了文本分类的查全率和查准率。