节点频度和语义距离相结合的网页正文信息抽取

doi:10.3778/j.issn.1002-8331.2009.01.044

计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (1): 140-143.DOI: 10.3778/j.issn.1002-8331.2009.01.044

• 数据库、信号与信息处理 • 上一篇下一篇

节点频度和语义距离相结合的网页正文信息抽取

孟军,刘秋水,王秀坤

大连理工大学计算机科学与工程系，辽宁大连 116023

收稿日期:2008-07-24 修回日期:2008-10-16 出版日期:2009-01-01 发布日期:2009-01-01
通讯作者: 孟军

Combing node frequency and semantic feature for webpage informative content extraction

MENG Jun,LIU Qiu-shui,WANG Xiu-kun

Department of Computer Science and Engineering，Dalian University of Technology，Dalian 116023，China

Received:2008-07-24 Revised:2008-10-16 Online:2009-01-01 Published:2009-01-01
Contact: MENG Jun

摘要/Abstract

摘要： 提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型（Block node Frequency-Document Object Module），并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型，再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑：在同源的网页集合内噪音节点的频度值很高；正文信息一般由非链接文字组成；与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明，该方法能有效地抽取正文信息，召回率和准确率都在96%以上，优于基于信息熵的抽取方法。

关键词: 信息提取, 带有节点频度的文档对象模型树, 节点频度, 语义距离

Abstract: A new module named BF-DOM tree is proposed in this paper，which extends the Document Object Module Tree by adding two properties，i.e.，block node frequency and relativity，to some nodes.Using this module combined with semantic distance，this method extracts the primary content accurately from the same source based on three facts：noise nodes always have high node frequency property within a given website；primary content blocks are often made up of few link words and many text words；useful links are contained in a useful content blocks and have a close semantic distance with page titles.Experiment on eight respective websites shows the proposed method can identify the primary content blocks with higher precision and recall rate both above 96% which is better than the entropy based method.The method can reduce the storage requirement for search engines；thus，result in smaller indexes，faster search time，and better user satisfaction.

Key words: information extraction, Block node Frequency-Document Object Module（BF-DOM） tree, node frequency, semantic distance

孟军,刘秋水,王秀坤. 节点频度和语义距离相结合的网页正文信息抽取[J]. 计算机工程与应用, 2009, 45(1): 140-143.

MENG Jun,LIU Qiu-shui,WANG Xiu-kun. Combing node frequency and semantic feature for webpage informative content extraction[J]. Computer Engineering and Applications, 2009, 45(1): 140-143.

[1]	杜博远1，王美清1，陈长福2，陈飞1. 基于结构一致和特征学习的网页信息标签提取[J]. 计算机工程与应用, 2017, 53(7): 74-78.
[2]	乔闹生1，张奋2. 一种印刷电路板缺陷图像边缘信息提取方法[J]. 计算机工程与应用, 2015, 51(20): 11-15.
[3]	马腾，詹卫东. 基于事件语义距离的V1-V2述结式判别研究[J]. 计算机工程与应用, 2015, 51(17): 107-112.
[4]	王旭阳，万里. 信息检索中语义相似度算法研究[J]. 计算机工程与应用, 2014, 50(10): 124-127.
[5]	阎继宁1，2，3，周可法1，2，王金林1，王珊珊1，汪玮1，李东1，2，3. 基于SAM与SVM的高光谱遥感蚀变信息提取[J]. 计算机工程与应用, 2013, 49(19): 141-146.
[6]	范帆1，关佶红2. 工程图纸字符串及标注信息提取[J]. 计算机工程与应用, 2012, 48(7): 161-164.
[7]	李龙翔1，胡晓东2，沈占锋2，明冬萍1，2，宋卓沁1，2. 对象化过程中的快速标号算法研究[J]. 计算机工程与应用, 2012, 48(6): 193-195.
[8]	梁帅1，2，罗强一2，黄镇鸿1. 本体结构特征分析与匹配应用研究[J]. 计算机工程与应用, 2012, 48(2): 43-47.
[9]	宋佳，王卷乐，诸云强，冯敏. 基于地理空间本体的语义检索相关度研究[J]. 计算机工程与应用, 2011, 47(5): 114-117.
[10]	戴芹，刘建波，刘士彬. 群智能方法在遥感信息提取中的应用分析[J]. 计算机工程与应用, 2011, 47(4): 13-16.
[11]	慈慧1，2，秦勇1，2，杨慧1，2，李国强3，酆格斐4. 滨海湿地信息提取方法比较研究[J]. 计算机工程与应用, 2011, 47(33): 244-248.
[12]	田萱，李冬梅. 领域本体中概念间语义相关度的概率估计[J]. 计算机工程与应用, 2011, 47(27): 136-140.
[13]	薄树奎，刘华. 类别划分对特定类别信息提取的影响[J]. 计算机工程与应用, 2011, 47(24): 193-195.
[14]	李晓霞1，2，汪云甲1，2. 面向对象的高分辨率影像采煤塌陷地提取[J]. 计算机工程与应用, 2011, 47(23): 239-241.
[15]	戢晓峰¹，黄永忠³，何增辉²，韩春华¹. 面向诱导的交通状态信息提取方法[J]. 计算机工程与应用, 2010, 46(25): 16-18.

节点频度和语义距离相结合的网页正文信息抽取

Combing node frequency and semantic feature for webpage informative content extraction

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics