面向Web文本关键词自动抽取的DON模型研究

计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (31): 115-119.

• 数据库、信号与信息处理 • 上一篇下一篇

面向Web文本关键词自动抽取的DON模型研究

彭浩1，蔡美玲1，2，王瑞龙3，余炳锐1

1.湖南涉外经济学院计算机科学与技术学院，长沙 410205
2.中南大学信息科学与工程学院，长沙 410083
3.河南信阳供电公司，河南信阳 464000

出版日期:2012-11-01 发布日期:2012-10-30

Document object network model for extracting keywords from Web pages

PENG Hao1, CAI Meiling1，2, WANG Ruilong3, YU Bingrui1

1.College of Computer Science and Technology, Hunan International and Economics University, Changsha 410205, China
2.Institute of Information Science and Engineering, Central and South University, Changsha 410083, China
3.Henan Province Xinyang Electric Power, Xinyang, Henan 464000, China

Online:2012-11-01 Published:2012-10-30

摘要/Abstract

摘要： Web网页中往往包含许多主题噪声，准确地自动抽取关键词成为技术难点。提出了一个文本对象网络模型DON，给出了对象节点的中心度概念和基于中心度的影响因子传播规则，并据此自动聚集DON中的主题社区（topic society），从而提高了模型的抗噪能力。提出一个基于DON的网页关键词自动抽取算法KEYDON（Keywords Extraction Algorithm Based on DON）。实验结果表明，与基于DocView模型的相应算法相比，KEYDON的准确率提高了近20%，这说明DON模型具有较强的抑制主题噪声能力。

关键词: 文本对象网络, DON, 中心度, 影响因子, 关键词自动抽取, 网页

Abstract: It is very hard to exactly extract keywords from hub Web pages because of its topic noise. A Document Object Network（DON） model and Keywords Extraction Algorithm Based on it （KEYDON） are proposed. The model DON clusters the topic society with the betweenness centrality and impact fraction of nodes in DON. Experiments show that the accuracy of proposed keywords extraction algorithm’s performance based on DON has increased by 20% compared with the algorithm based on DocView model.

Key words: document object network, Document Object Network（DON）, betweenness centrality, impact fraction, keywords extraction, Web page

彭浩1，蔡美玲1，2，王瑞龙3，余炳锐1. 面向Web文本关键词自动抽取的DON模型研究[J]. 计算机工程与应用, 2012, 48(31): 115-119.

PENG Hao1, CAI Meiling1，2, WANG Ruilong3, YU Bingrui1. Document object network model for extracting keywords from Web pages[J]. Computer Engineering and Applications, 2012, 48(31): 115-119.

[1]	万梦翔，姚寒冰. 面向恶意网页训练数据生成的GAN模型[J]. 计算机工程与应用, 2021, 57(6): 124-130.
[2]	高见，孙懿，王润正，袁得嵛. 基于机器学习的浏览器挖矿检测模型研究[J]. 计算机工程与应用, 2021, 57(22): 125-130.
[3]	姜金川，王冲. 基于学习自动机和用户兴趣的PageRank算法研究[J]. 计算机工程与应用, 2020, 56(3): 80-85.
[4]	陈本刚，宋礼鹏. 网页内容链接层次语义树的恶意网页检测方法[J]. 计算机工程与应用, 2020, 56(11): 90-97.
[5]	吴会会1，高淑萍1，彭弘铭2，赵怡1. 自适应模糊[C]均值聚类的数据融合算法[J]. 计算机工程与应用, 2019, 55(5): 26-35.
[6]	余恩泽，努尔布力，于清. 一种基于集成学习的钓鱼网站检测方法[J]. 计算机工程与应用, 2019, 55(18): 81-88.
[7]	田鹤1，赵海2. 水电运行仿真软件网络结构特征的度量[J]. 计算机工程与应用, 2018, 54(3): 259-264.
[8]	王恒友，余沾，张长伦，何强. 基于低秩矩阵分解的批量扫描文档图像纠偏[J]. 计算机工程与应用, 2018, 54(17): 175-179.
[9]	杜博远1，王美清1，陈长福2，陈飞1. 基于结构一致和特征学习的网页信息标签提取[J]. 计算机工程与应用, 2017, 53(7): 74-78.
[10]	齐向明，孙文心. 一种多特征因子融合的PageRank算法研究[J]. 计算机工程与应用, 2017, 53(7): 97-103.
[11]	丁岩，努尔布力. 基于URL混淆技术识别的钓鱼网页检测方法[J]. 计算机工程与应用, 2017, 53(20): 75-82.
[12]	李洪奇，冯海波，张伟，杨中国，宋伟城. 基于字集特征向量的网页消重改进算法[J]. 计算机工程与应用, 2017, 53(2): 53-57.
[13]	李冰1，2，王虎3，王锐4. 客户群及个体服务选择影响因子研究[J]. 计算机工程与应用, 2017, 53(13): 21-28.
[14]	马垒1，赵拥军1，赵闯1，朱健东2. STLFMCW信号的周期FRFT检测与参数估计[J]. 计算机工程与应用, 2017, 53(1): 134-141.
[15]	许孝盛1，靳萍2，郑稳2. 室内座椅线框图识别[J]. 计算机工程与应用, 2016, 52(23): 196-202.

面向Web文本关键词自动抽取的DON模型研究

Document object network model for extracting keywords from Web pages

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics