一种基于信息熵的Web页面主题信息抽取方法

计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (4): 164-166.

一种基于信息熵的Web页面主题信息抽取方法

贺智平徐学洲李爱玲

西安电子科技大学软件工程研究所西安电子科技大学软件工程研究所

收稿日期:2005-09-21 修回日期:1900-01-01 出版日期:2007-02-01 发布日期:2007-02-01
通讯作者: 贺智平

Extracting Topic Information of Web Page based on Entropy

Received:2005-09-21 Revised:1900-01-01 Online:2007-02-01 Published:2007-02-01

摘要/Abstract

摘要： 提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树。根据配置过滤掉不需处理的相关内容并建立语义模型树，最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面。初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠，基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。

关键词: Web, 抽取, STU-DOM树, 信息熵

Abstract: This paper presents a method of information extraction by pruning the nodes of which information entropy production reach a certain extent. Firstly, a DOM tree is constructed by parsing HTML document. Then, the nodes which don't need to be dealt with are filtrated out, and a STU tree is created. Lastly, the nodes whose information entropy's increase overtops the threshold value are pruned, and the topic information of the Web pages is obtained. The primary experiment result proves the validity of the method using for extracting Web page's information. The mathematical model of the method is simple and credible, so it can work automatically without intervention of people. This method can be applied to Web data mining and information extraction for mobile device such as PDA etc.

Key words: Web, extraction, STU-DOM Tree, information entropy

贺智平徐学洲李爱玲. 一种基于信息熵的Web页面主题信息抽取方法[J]. 计算机工程与应用, 2007, 43(4): 164-166.

[1]	曹渝昆, 孙涛. 基于GLSTM和Attention的中文事件要素提取[J]. 计算机工程与应用, 2022, 58(6): 157-163.
[2]	陈智罡, 宋新霞, 郑梦策, 刘天成. 全同态加密文献计量分析研究[J]. 计算机工程与应用, 2022, 58(4): 40-51.
[3]	熊中敏, 马海宇, 李帅, 张娜. 知识图谱在海洋领域的应用及前景分析综述[J]. 计算机工程与应用, 2022, 58(3): 15-33.
[4]	黄伟, 刘贵全. MSML-BERT模型的层级多标签文本分类方法研究[J]. 计算机工程与应用, 2022, 58(15): 191-201.
[5]	徐春, 李胜楠. 融合BERT-WWM和指针网络的旅游知识图谱构建研究[J]. 计算机工程与应用, 2022, 58(12): 280-288.
[6]	冯钧, 张涛, 杭婷婷. 重叠实体关系抽取综述[J]. 计算机工程与应用, 2022, 58(1): 1-11.
[7]	王鹏，叶学义，王涛，钱丁炜. 双偏差双空间局部方向模式的人脸识别[J]. 计算机工程与应用, 2021, 57(4): 91-99.
[8]	隗昊，周爱，张益嘉，陈飞，屈雯，鲁明羽. 深度学习生物医学实体关系抽取研究综述[J]. 计算机工程与应用, 2021, 57(21): 14-23.
[9]	江魁，丘远东，郑浩城. 基于信息熵与LSTM的ICMPv6 DDoS攻击检测方法[J]. 计算机工程与应用, 2021, 57(21): 148-154.
[10]	黄梅根，刘佳乐，刘川. 基于BERT的中文多关系抽取方法研究[J]. 计算机工程与应用, 2021, 57(21): 234-240.
[11]	宋世杰，陈开颜，张阳. 信息熵角度下的深度学习旁路安全评估框架[J]. 计算机工程与应用, 2021, 57(17): 138-146.
[12]	周爱君，努尔布力，艾壮，肖中正. 基于近邻成分分析的WebShell特征处理算法研究[J]. 计算机工程与应用, 2021, 57(16): 125-133.
[13]	赫俊民，鲁梦华，孟魁. 中文单文档摘要模型DSum-SSE[J]. 计算机工程与应用, 2021, 57(15): 200-206.
[14]	张念蓬，吴旭，朱强. 基于熵的过采样框架[J]. 计算机工程与应用, 2021, 57(13): 96-101.
[15]	包玥，李艳玲，林民. 抽取式机器阅读理解研究综述[J]. 计算机工程与应用, 2021, 57(12): 25-36.