计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (16): 153-156.DOI: 10.3778/j.issn.1002-8331.2010.16.045
谭鹏许,张来顺
TAN Peng-xu,ZHANG Lai-shun
摘要: 提出了一种利用改进的k-contextual树自动机推理算法的信息抽取技术。其核心思想是将结构化(半结构化)文档转换成树,然后利用一种改进的k-contextual树(KLH树)来构造出能够接受样本的无秩树自动机,依据该自动机接收和拒绝状态来确定是否抽取网页信息。该方法充分利用了网页文档的树状结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验证明,该方法与同类抽取方法相比,样本学习时间以及抽取所需时间上均有所缩短。
中图分类号: