使用特征文本密度的网页正文提取

doi:10.3778/j.issn.1002-8331.2010.20.001

计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (20): 1-3.DOI: 10.3778/j.issn.1002-8331.2010.20.001

使用特征文本密度的网页正文提取

王少康^1，2，董科军¹，阎保平¹

1.中国科学院计算机网络信息中心，北京 100190
2.中国科学院研究生院，北京 100049

收稿日期:2010-03-17 修回日期:2010-05-17 出版日期:2010-07-11 发布日期:2010-07-11
通讯作者: 王少康

Web content information extraction using density of feature text

WANG Shao-kang^1，2，DONG Ke-jun¹，YAN Bao-ping¹

1.Computer Network Information Center，Chinese Academy of Sciences，Beijing 100190，China
2.Graduate School of Chinese Academy of Sciences，Beijing 100049，China

Received:2010-03-17 Revised:2010-05-17 Online:2010-07-11 Published:2010-07-11
Contact: WANG Shao-kang

摘要/Abstract

摘要： 针对当前互联网网页越来越多样化、复杂化、非规范化的特点，提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类，并构建数学模型进行比例密度分析，从而精确地识别出主题文本。该方法的时间和空间复杂度均较低。实验显示，它能有效地抽取复杂网页以及多主题段网页的正文信息，具有很好的通用性。

关键词: 文本密度, 文本特征, 信息抽取, 网页

Abstract: The current web pages are getting more and more diverse，complex and non-standardized which makes the information extraction more difficult，the paper proposes a web content information extraction method based on density of feature text，which classifies the page text according to its usage and features，and constructs mathematical models to analyze the text proportion and density，thus identifies the content information accurately.The method has rather low time and space complexity.Experiments show that it can extract content information effectively from complex and multi-topic web pages and has a wide applicability.

Key words: text density, text feature, information extraction, web page

中图分类号:

TP393

王少康^1，2，董科军¹，阎保平¹. 使用特征文本密度的网页正文提取[J]. 计算机工程与应用, 2010, 46(20): 1-3.

WANG Shao-kang^1，2，DONG Ke-jun¹，YAN Bao-ping¹. Web content information extraction using density of feature text[J]. Computer Engineering and Applications, 2010, 46(20): 1-3.

[1]	万梦翔，姚寒冰. 面向恶意网页训练数据生成的GAN模型[J]. 计算机工程与应用, 2021, 57(6): 124-130.
[2]	高见，孙懿，王润正，袁得嵛. 基于机器学习的浏览器挖矿检测模型研究[J]. 计算机工程与应用, 2021, 57(22): 125-130.
[3]	隗昊，周爱，张益嘉，陈飞，屈雯，鲁明羽. 深度学习生物医学实体关系抽取研究综述[J]. 计算机工程与应用, 2021, 57(21): 14-23.
[4]	王巧月，陈树越. 车牌图像色彩迁移与正则化约束去雾算法[J]. 计算机工程与应用, 2021, 57(14): 217-222.
[5]	姜金川，王冲. 基于学习自动机和用户兴趣的PageRank算法研究[J]. 计算机工程与应用, 2020, 56(3): 80-85.
[6]	吴呈，王朝坤，王沐贤. 基于文本化简的实体属性抽取方法[J]. 计算机工程与应用, 2020, 56(21): 115-122.
[7]	陈本刚，宋礼鹏. 网页内容链接层次语义树的恶意网页检测方法[J]. 计算机工程与应用, 2020, 56(11): 90-97.
[8]	余恩泽，努尔布力，于清. 一种基于集成学习的钓鱼网站检测方法[J]. 计算机工程与应用, 2019, 55(18): 81-88.
[9]	杜博远1，王美清1，陈长福2，陈飞1. 基于结构一致和特征学习的网页信息标签提取[J]. 计算机工程与应用, 2017, 53(7): 74-78.
[10]	齐向明，孙文心. 一种多特征因子融合的PageRank算法研究[J]. 计算机工程与应用, 2017, 53(7): 97-103.
[11]	赵晓永，王磊. 电商网页中商品规格信息自动抽取方法研究[J]. 计算机工程与应用, 2017, 53(24): 168-171.
[12]	奠雨洁，金琴，吴慧敏. 基于多文本特征融合的中文微博的立场检测[J]. 计算机工程与应用, 2017, 53(21): 77-84.
[13]	丁岩，努尔布力. 基于URL混淆技术识别的钓鱼网页检测方法[J]. 计算机工程与应用, 2017, 53(20): 75-82.
[14]	李洪奇，冯海波，张伟，杨中国，宋伟城. 基于字集特征向量的网页消重改进算法[J]. 计算机工程与应用, 2017, 53(2): 53-57.
[15]	杨贯中，李虹萱. 基于WSFT模型的深层网文本获取方法[J]. 计算机工程与应用, 2017, 53(18): 236-242.

使用特征文本密度的网页正文提取

Web content information extraction using density of feature text

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics