计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (17): 129-132.DOI: 10.3778/j.issn.1002-8331.2009.17.039
马春华1,朱颢东2,3
MA Chun-hua1,ZHU Hao-dong2,3
摘要: 目前很多知识库中的领域特征主要依靠专家手工来获得,不但费时费力,而且知识库的质量受专家知识与经验的限制。虽然也存在一些领域特征的自动获取方法,但它们提取的特征集大多存在冗余。因此,较具代表性的领域特征集的有效自动获取成为一个亟待解决的问题。首先分析了一些领域词语自动获取方法的不足,对它们加以改进,然后利用改进方法实现在大规模分类语料中自动获取领域词语的目的,最后利用粗集理论对所得领域词语集进行属性约简,从而得到冗余度低、代表性好的领域特征集。实验验证了所提方法的有效性和实用性。