计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (21): 25-29.DOI: 10.3778/j.issn.1002-8331.2008.21.007
钟茂生1,2,胡 熠1,刘 磊1
ZHONG Mao-sheng1,2,HU Yi1,LIU Lei1
摘要: 随着Internet网络资源的快速膨胀,海量的非结构化文本处理任务成为巨大的挑战。文本分割作为文本处理的一个重要的预处理步骤,其性能的优劣直接影响信息检索、文本摘要和问答系统等其他任务处理的效果。针对文本分割中需要解决的主题相关性度量和边界划分策略两个根本问题,提出了一种基于词典词语量化关系的句子间相关性度量方法,并建立了一个计算句子之间的间隔点分隔值的数学模型,以实现基于句子层次的中文文本分割。通过三组选自国家汉语语料库的测试语料的实验表明,该方法识别分割边界的平均错误概率pk和最低值均好于现有的其他中文文本分割方法。