计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (28): 135-137.DOI: 10.3778/j.issn.1002-8331.2010.28.038
王远定,梁久祯
WANG Yuan-ding,LIANG Jiu-zhen
摘要: 研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。
中图分类号: