计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (20): 202-204.DOI: 10.3778/j.issn.1002-8331.2009.20.059
于春燕1,2,胡学钢1
YU Chun-yan 1,2,HU Xue-gang1
摘要: 抽取网页中的行情数据进行预测和分析具有重要意义。提出了Web中的行情数据抽取算法,该算法主要基于“行情数据通常在网页中表现为区域最大的数据表格”等实践规律,首先自动识别出最大的数据表格,然后转换为DOM树结构,最后抽取DOM树的结点值。与传统算法不同,算法自动抽取行情区域而无需用户定义抽取数据区域。设计了一个农产品价格预测原型系统,该系统针对某个农产品,自动从特定网站获取价格数据,对月度价格进行预测,实验表明预测性能较好。