计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (18): 236-242.DOI: 10.3778/j.issn.1002-8331.1604-0039
杨贯中,李虹萱
YANG Guanzhong, LI Hongxuan
摘要: Ajax技术在深层网(Deep Web)网站开发中得到了广泛应用。针对Ajax页面多状态、状态之间强关联的特性,提出一种构建WSFT(带权状态融合树)模型的方法,来进行Ajax页面文本信息预处理。引入了文本特征树作为状态指纹进行状态捕获,优化了当前Ajax页面数据采集方法,同时通过StatusRank方法计算状态转移权值来分析状态迁移信息,最后生成WSFT。实验证明,该方法能有效地获取Ajax页面多状态文本信息,并且有助于后续Web挖掘的重要文本内容提取。