基于语义网的中文百科知识组织与集成

计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (14): 120-126.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

基于语义网的中文百科知识组织与集成

付宇新1，王鑫1，2，冯志勇1，2，吕雪栋1

1.天津大学计算机科学与技术学院计算机科学与技术系，天津 300072
2.天津市认知计算与应用重点实验室，天津 300072

出版日期:2015-07-15 发布日期:2015-08-03

Organization and integration of Chinese encyclopedia knowledge based on semantic web

FU Yuxin1, WANG Xin1，2, FENG Zhiyong1，2, LV Xuedong1

1.Department of Computer Science and Technology, School of Computer Science and Technology, Tianjin University, Tianjin 300072, China
2.Tianjin Key Laboratory of Cognitive Computing and Application, Tianjin 300072, China

Online:2015-07-15 Published:2015-08-03

摘要/Abstract

摘要： 通过从3个最大的中文百科全书（百度百科、互动百科、中文维基百科）所包含的大规模知识数据中识别重要的结构化特征生成RDF三元组，并将这些信息数据整合加入分布式大规模RDF数据存储系统，从而构成符合Linked Data要求的中文百科知识库RDF数据集。主要工作包括，通过配置网络爬虫对百度百科和互动百科的网页进行爬取，解析其中信息框等内容，生成RDF三元组并实现三元组的动态插入;下载需要的DBpedia中文三元组数据，将三元组进行整合并存储到课题组的大规模语义数据存储库Jingwei中;设计显示动态插入和三元组模式查询的页面，通过原型系统实验，验证了该方法的有效性。

关键词: 语义网, 资源描述框架（RDF）, 中文百科全书, Linked Open Data, Nutch

Abstract: It identifies important structural features from immense knowledgeable data in three largest Chinese encyclopedias （Baidu Encyclopedia, Hudong Encyclopedia, Chinese Wikipedia） and generates RDF triples, then integrates the information data and sets into a distributed large-scale RDF data storage system, and constructs the RDF dataset of Chinese Encyclopedia Knowledge Base that fits with the requirements of Linked Data. The main work includes, configuring the web crawler to crawl the html pages from Baidu Encyclopedia and Hudong Encyclopedia, parsing the content of the information box to generate RDF triples, downloading Chinese triples data from DBpedia, integrating the data sets into the distributed large-scale RDF data storage system Jingwei, designing the display of dynamic inserting and triple pattern query pages, it also verifies the validity of the method through prototype system experiments.

Key words: semantic web, Resource Description Framework（RDF）, Chinese encyclopedia, Linked Open Data, Nutch

付宇新1，王鑫1，2，冯志勇1，2，吕雪栋1. 基于语义网的中文百科知识组织与集成[J]. 计算机工程与应用, 2015, 51(14): 120-126.

FU Yuxin1, WANG Xin1，2, FENG Zhiyong1，2, LV Xuedong1. Organization and integration of Chinese encyclopedia knowledge based on semantic web[J]. Computer Engineering and Applications, 2015, 51(14): 120-126.

[1]	陈恒1，2，李冠宇2，孙云浩2. 重排序RDF流三元组模式的蚁群优化方法[J]. 计算机工程与应用, 2017, 53(12): 172-177.
[2]	陈福1，杨家海2，徐月梅1. 离散服务化的网管体系结构研究与实现[J]. 计算机工程与应用, 2016, 52(15): 126-134.
[3]	张兰芳，年梅. 教学资源概念查询扩展研究[J]. 计算机工程与应用, 2014, 50(13): 127-132.
[4]	张思发，马永格. 面向地学信息领域垂直搜索引擎设计与实现[J]. 计算机工程与应用, 2012, 48(33): 85-88.
[5]	聂规划，罗迹，陈冬林. 电子目录的SWRL规则研究[J]. 计算机工程与应用, 2011, 47(7): 57-60.
[6]	阳小兰，钱程，赵海廷. 一种基于Nutch的网页聚类系统的设计与实现[J]. 计算机工程与应用, 2011, 47(5): 118-122.
[7]	王莉，高仲利. 基于分面导航理论的RDF数据的持久化研究[J]. 计算机工程与应用, 2010, 46(9): 130-133.
[8]	陈骏. 语义网在文本分类中的应用[J]. 计算机工程与应用, 2009, 45(8): 153-157.
[9]	钱猛,刘忠,都业宏,姚莉. 使用本体和SWRL验证作战计划的方法[J]. 计算机工程与应用, 2009, 45(8): 208-212.
[10]	盛秋艳^1，2，印桂生¹. 一种基于本体的语义检索算法[J]. 计算机工程与应用, 2009, 45(36): 148-150.
[11]	陆寅¹，苗克坚¹，李战怀¹，魏珂². 智能家庭系统中的烹饪助手服务[J]. 计算机工程与应用, 2009, 45(36): 189-192.
[12]	杨珺^1，2，王继成²，邢丹俊². 结合相关反馈日志与语义网络的图像标注[J]. 计算机工程与应用, 2009, 45(21): 99-102.
[13]	田飞,刘鲁. 基于语义推理的DSS模型研究与应用[J]. 计算机工程与应用, 2009, 45(17): 11-15.
[14]	王方石,卢苇. ITPDA算法在构建语义网中的应用[J]. 计算机工程与应用, 2009, 45(13): 146-149.
[15]	相洁,陈俊杰. 基于本体的图像情感语义识别研究[J]. 计算机工程与应用, 2008, 44(27): 43-45.

基于语义网的中文百科知识组织与集成

Organization and integration of Chinese encyclopedia knowledge based on semantic web

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics