计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (23): 160-162.DOI: 10.3778/j.issn.1002-8331.2008.23.049
俞 辉,景海峰
YU Hui,JING Hai-feng
摘要: Web用户聚类知识可以为改进信息搜索效率和提供个性化服务提供帮助。通过对海量日志记录分析,构建会话-页面矩阵;根据信息论理论,在会话-页面矩阵中权值计算中考虑局部和全局权值贡献;利用概率潜在语义分析将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。