摘要: 针对在多用户、多Web站点的网络访问环境下存在的数据采集问题,提出了一种新的数据采集及清理方法。引入网络嗅探的方式进行浏览行为数据的采集;在结合传统数据清理方法的基础上,提出一种利用HTTP请求间存在的引用和时间关系来清除HTTP请求产生的大量的非用户显式点击的附带请求。实验结果表明,该方法可以有效地采集浏览行为数据并清除大量的附带请求,抽取出能够反映用户显式点击的页面基请求,为用户浏览行为建模提供准确的数据源。
张玉芳,张艳华,熊忠阳. 一种高效的用户浏览行为采集方法[J]. 计算机工程与应用, 2013, 49(3): 126-129.
ZHANG Yufang, ZHANG Yanhua, XIONG Zhongyang. Efficient method for collecting user browsing behaviors[J]. Computer Engineering and Applications, 2013, 49(3): 126-129.