基于网页内容块策略的主题爬行

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (9): 143-146.

• 数据库、信号与信息处理 • 上一篇下一篇

基于网页内容块策略的主题爬行

吴晓平,张长利,朱丽娜

沈阳炮兵学院基础部计算机实验中心，沈阳 110162

收稿日期:2007-07-12 修回日期:2007-10-24 出版日期:2008-03-21 发布日期:2008-03-21
通讯作者: 吴晓平

Block-based topic crawling

WU Xiao-ping,ZHANG Chang-li,ZHU Li-na

Computer Experiment Center，Shenyang Artillery College，Shenyang 110162，China

Received:2007-07-12 Revised:2007-10-24 Online:2008-03-21 Published:2008-03-21
Contact: WU Xiao-ping

摘要/Abstract

摘要： 因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统（网络蜘蛛）是主题搜索引擎的最主要的部分，它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛，如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行，实验结果表明，相对于其它的爬行算法，提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。

关键词: 定题搜索, 主题爬行, 搜索引擎, 爬行算法, 相关度分析

Abstract: With the explosive growth of the World-Wide Web，to general-purpose crawlers and search engines which pose great challenges.All sorts of special topic search engines are designed for special people and special domains.The web topic information search system（web spider） is the most important part of topic search engine，it collects web pages of special topic and provides users with the result or stores it in index database.Information resource of web is so extensive，how to collect interest content comprehensively and effectively，it is important to web spider research.In this paper，a new crawling strategy block-based topic crawling has been proposed，the experiments show that compared with some traditional algorithms，this algorithm has better performance.It is effective and has high precision.

Key words: topic-specific search, topic crawling, search engine, crawling algorithm, correlation analysis

吴晓平,张长利,朱丽娜. 基于网页内容块策略的主题爬行[J]. 计算机工程与应用, 2008, 44(9): 143-146.

WU Xiao-ping,ZHANG Chang-li,ZHU Li-na

. Block-based topic crawling[J]. Computer Engineering and Applications, 2008, 44(9): 143-146.

[1]	杨和平1，陈瑜2，3，张志强1. 网站简约本体垂直搜索系统的设计与实现[J]. 计算机工程与应用, 2017, 53(19): 257-264.
[2]	邓晓妹，武刚. 基于点击日志的搜索引擎用户满意度评价研究[J]. 计算机工程与应用, 2015, 51(8): 245-249.
[3]	沙光华，陈泳，张长江. 读写分离技术在运营支撑系统中的应用[J]. 计算机工程与应用, 2015, 51(12): 107-110.
[4]	史宝明1，贺元香1，吴崇正2. 主题搜索引擎中爬虫搜索策略的研究[J]. 计算机工程与应用, 2014, 50(2): 116-119.
[5]	魏刃佳，吴振强. 面向教育视频资源的垂直搜索引擎设计与实现[J]. 计算机工程与应用, 2014, 50(15): 113-116.
[6]	李超1，2，3，谢坤武1，2. 多搜索引擎权重计算及搜索结果排序质量评估[J]. 计算机工程与应用, 2014, 50(12): 21-25.
[7]	王桂华，秦湘清，陈黎，王亚强，于中华. 一种面向专业搜索引擎的查询推荐算法[J]. 计算机工程与应用, 2013, 49(9): 144-149.
[8]	郑丽，吕学强. 搜索引擎日志中“N+V+N”、“V+N+N”型短语识别[J]. 计算机工程与应用, 2013, 49(6): 143-147.
[9]	张思发，马永格. 面向地学信息领域垂直搜索引擎设计与实现[J]. 计算机工程与应用, 2012, 48(33): 85-88.
[10]	于春雷，朱征宇，何杰，董曙佳. 一种个性化查询扩展方法[J]. 计算机工程与应用, 2012, 48(2): 119-123.
[11]	陆秋琴，黄光球，周娇. 基于生物记忆原理的个性化搜索引擎模型[J]. 计算机工程与应用, 2012, 48(12): 67-73.
[12]	姜楚江1，余轶军2. 基于分块和净化的搜索引擎排序算法[J]. 计算机工程与应用, 2012, 48(1): 173-175.
[13]	姚全珠，彭程，宋志理，李薇. 基于关联规则的搜索引擎方法[J]. 计算机工程与应用, 2011, 47(9): 134-136.
[14]	王海鹰，魏颖. 基于蚁群算法的多目标网页综合评价策略[J]. 计算机工程与应用, 2011, 47(4): 223-225.
[15]	仇壮丽. 在线论文复制检测系统设计[J]. 计算机工程与应用, 2011, 47(19): 12-14.

基于网页内容块策略的主题爬行

Block-based topic crawling

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics