计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (21): 133-137.DOI: 10.3778/j.issn.1002-8331.2008.21.037
方 巍1,2,黄 黎1,2,崔志明1,2
FANG Wei1,2,HUANG Li1,2,CUI Zhi-ming1,2
摘要: Web中包含着海量的高质量信息,它们通常处在网络深处,无法被传统搜索引擎索引,将这样的资源称为Deep Web。因为查询接口是Deep Web的唯一入口,所以要获取Deep Web信息就必须判定哪些网页表单是Deep Web查询接口。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。因此,基于最大熵模型的分类性能,利用最大熵分类算法自动判定查询接口。并通过实验,将最大熵分类法与其它常用分类方法进行了比较,结果显示它的分类性能优于Bayes方法和C4.5方法,与SVM方法相当,表明这是一种非常实用的查询接口分类方法。