计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (14): 120-126.
付宇新1,王 鑫1,2,冯志勇1,2,吕雪栋1
FU Yuxin1, WANG Xin1,2, FENG Zhiyong1,2, LV Xuedong1
摘要: 通过从3个最大的中文百科全书(百度百科、互动百科、中文维基百科)所包含的大规模知识数据中识别重要的结构化特征生成RDF三元组,并将这些信息数据整合加入分布式大规模RDF数据存储系统,从而构成符合Linked Data要求的中文百科知识库RDF数据集。主要工作包括,通过配置网络爬虫对百度百科和互动百科的网页进行爬取,解析其中信息框等内容,生成RDF三元组并实现三元组的动态插入;下载需要的DBpedia中文三元组数据,将三元组进行整合并存储到课题组的大规模语义数据存储库Jingwei中;设计显示动态插入和三元组模式查询的页面,通过原型系统实验,验证了该方法的有效性。