基于模板化的Blog信息抽取

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (9): 156-158.

• 数据库、信号与信息处理 • 上一篇下一篇

基于模板化的Blog信息抽取

时达明,林鸿飞,赵晶

大连理工大学计算机科学与工程系，辽宁大连 116024

收稿日期:2007-06-05 修回日期:2007-11-22 出版日期:2008-03-21 发布日期:2008-03-21
通讯作者: 时达明

Blog information extraction based on template

SHI Da-ming,LIN Hong-fei,ZHAO Jing

Department of Computer Science and Engineering，Dalian University of Technology，Dalian，Liaoning 116024，China

Received:2007-06-05 Revised:2007-11-22 Online:2008-03-21 Published:2008-03-21
Contact: SHI Da-ming

摘要/Abstract

摘要： Blog（博客）可以称为在线个人日志。作为一种新兴的媒体，Blog目前已经成为一种在Web上表达个人观点和情感的一种非常流行的方式。那么如何从Blog中快速准确地抽取有用的信息（话题发布时间、话题题目、话题内容、评论内容等）就成为了Blog应用中一个非常重要的步骤。提出了一种基于模板化的Blog信息抽取方法，该方法通过分析Blog网站的HTML源代码，然后提取出网站的模板，并根据该模板对Blog网页进行信息抽取。对来自国内10个著名博客网站进行模板的提取，并对这10个网站中的7 374个Blog网页进行了实验，实验结果表明，该方法能根据提取出的模板快速、准确地对Blog网页进行信息抽取。

关键词: 博客, 信息抽取, 模板

Abstract: Blog is called online personal diaries.Being a kind of rising media，Blog has become a prevalent way to express personal opinions and emotions on Web.So how to extract useful information（topic posting date，topic title，topic content，comments，etc.） from Blogs has become an important step in Blogs’ application.This paper presents an approach of Blog information extraction based on template.This approach generates templates of Blog web sites by analyzing source codes，and it then extracts Blog web pages according to these templates.In this paper，templates of 10 famous Blog web sites are extracted，and experiment results on a set of 7 374 web pages from these 10 web sites show that this approach can extracted information from Blogs rapidly and exactly according to the templates.

Key words: Blog, information extraction, template

时达明,林鸿飞,赵晶. 基于模板化的Blog信息抽取[J]. 计算机工程与应用, 2008, 44(9): 156-158.

SHI Da-ming,LIN Hong-fei,ZHAO Jing. Blog information extraction based on template[J]. Computer Engineering and Applications, 2008, 44(9): 156-158.

[1]	郝亚玲，朱欣娟，吴晓军. 面向3D虚拟展示的软件定制化系统研究[J]. 计算机工程与应用, 2021, 57(5): 271-278.
[2]	隗昊，周爱，张益嘉，陈飞，屈雯，鲁明羽. 深度学习生物医学实体关系抽取研究综述[J]. 计算机工程与应用, 2021, 57(21): 14-23.
[3]	徐家俊，张翌维，赵建，相韶华. 针对SM4算法的功耗模板-碰撞分析[J]. 计算机工程与应用, 2021, 57(11): 111-118.
[4]	马玲，罗晓曙，蒋品群. 基于模板匹配和支持向量机的点阵字符识别研究[J]. 计算机工程与应用, 2020, 56(4): 134-139.
[5]	袁良友，周航，韩丹，许国梁. 引入平滑迭代的骨架提取改进算法[J]. 计算机工程与应用, 2020, 56(24): 188-193.
[6]	吴呈，王朝坤，王沐贤. 基于文本化简的实体属性抽取方法[J]. 计算机工程与应用, 2020, 56(21): 115-122.
[7]	胡昭华，李高飞，陈胡欣. 多通道特征和择优并行更新的核相关滤波跟踪[J]. 计算机工程与应用, 2019, 55(15): 161-168.
[8]	王玮婧，张雪锋. 基于Gabor滤波器与LDP掌纹可撤销模板生成方法[J]. 计算机工程与应用, 2018, 54(9): 89-95.
[9]	祝义1，2，黄志球1，周航1，刘林源1，3. 函数式程序模板元编程的元建模实现方法[J]. 计算机工程与应用, 2018, 54(7): 1-10.
[10]	郭蕊，张雪锋. 基于Bloom过滤和分块的组合指纹模板保护算法[J]. 计算机工程与应用, 2018, 54(6): 75-80.
[11]	谢小雨1，刘喆颉1，2. 基于DTW算法的肌电信号手势识别方法[J]. 计算机工程与应用, 2018, 54(5): 132-137.
[12]	郑凌，梁意文，谭成予. 击键动态学的多模板联合决策更新方法[J]. 计算机工程与应用, 2018, 54(20): 128-131.
[13]	李亚楠，张雪锋. 基于安全概略的可撤销掌纹模板生成算法[J]. 计算机工程与应用, 2018, 54(18): 115-120.
[14]	唐浩漾，程颖涛，郭娜，孙梓巍，王婧. HEVC的异构钻石模板快速搜索算法[J]. 计算机工程与应用, 2018, 54(18): 208-211.
[15]	费博雯，邵良杉，刘万军. 基于子区域匹配的稀疏表示跟踪算法[J]. 计算机工程与应用, 2017, 53(9): 201-207.

基于模板化的Blog信息抽取

Blog information extraction based on template

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics