摘要: 从Web日志中挖掘用户浏览偏爱路径是一个重要的研究课题。目前的挖掘算法注重客观访问频度,忽略了用户对这一频繁访问路径是否感兴趣。在分析目前用户偏爱路径挖掘算法存在的问题的基础上,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,从而剔除由于页面放置和链接等因素对挖掘的影响;针对目前基于单一节点的挖掘系统的计算能力不足的问题,利用云计算的分布式处理和虚拟化技术的优势,给出了一种基于云计算的数据处理方法,在此基础上挖掘用户浏览偏爱路径。实验表明,该算法针对大数据量的日志进行挖掘,准确率和效率比普通基于频度进行用户浏览偏爱路径挖掘的算法有所提高。