基于概率潜在语义分析的Web用户聚类

doi:10.3778/j.issn.1002-8331.2008.23.049

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (23): 160-162.DOI: 10.3778/j.issn.1002-8331.2008.23.049

• 数据库、信号与信息处理 • 上一篇下一篇

基于概率潜在语义分析的Web用户聚类

俞辉,景海峰

中国石油大学计算机与通信工程学院，山东东营 257061

收稿日期:2007-10-15 修回日期:2008-01-28 出版日期:2008-08-11 发布日期:2008-08-11
通讯作者: 俞辉

Web user clustering based on Probabilistic Latent Semantic Analysis

YU Hui,JING Hai-feng

Institute of Computer & Communication Engineering，China University of Petroleum，Dongying，Shandong 257061，China

Received:2007-10-15 Revised:2008-01-28 Online:2008-08-11 Published:2008-08-11
Contact: YU Hui

摘要/Abstract

摘要： Web用户聚类知识可以为改进信息搜索效率和提供个性化服务提供帮助。通过对海量日志记录分析，构建会话－页面矩阵；根据信息论理论，在会话－页面矩阵中权值计算中考虑局部和全局权值贡献；利用概率潜在语义分析将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率，然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法，以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。

关键词: Web日志, 预处理, Web用户, 概率潜在语义分析, 聚类

Abstract: Knowledge of Web user clustering can improve the efficiency of information searching and personalized service.Firstly，session-page matrix can been constructed by analyzing a great deal of log.Then，based on information theory，the local weight and global weight are considered in calculation of weight in session-page matrix.With usage of probabilistic latent semantic analysis，the conditional probability of latent variable Z to page P is transformed the conditional probability of latent variable Z to session S，then the transformed results are used in similarity calculation.The k-medoids algorithm is adopted to further improve clursting result.Experiment results validate validity and limitation of this algorithm.

Key words: Web log, preprocessing, Web user, Probabilistic Latent Semantic Analysis（PLSA）, clustering

俞辉,景海峰. 基于概率潜在语义分析的Web用户聚类[J]. 计算机工程与应用, 2008, 44(23): 160-162.

YU Hui,JING Hai-feng. Web user clustering based on Probabilistic Latent Semantic Analysis[J]. Computer Engineering and Applications, 2008, 44(23): 160-162.

[1]	兰红，黄敏. 融合KNN优化的密度峰值和FCM聚类算法[J]. 计算机工程与应用, 2021, 57(9): 81-88.
[2]	郭晓静，隋昊达. 改进YOLOv3在机场跑道异物目标检测中的应用[J]. 计算机工程与应用, 2021, 57(8): 249-255.
[3]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[4]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[5]	杨芳，尹曦，司建辉，刘宏媛，汪雪. 基于侧重点聚类的数学表达式相似度计算方法[J]. 计算机工程与应用, 2021, 57(6): 88-93.
[6]	赵凡，张琳，闻治泉，杨林林，蔺广逢. 一种直接高效的自然场景汉字逼近定位方法[J]. 计算机工程与应用, 2021, 57(6): 159-167.
[7]	彭启慧，宣士斌，高卿. 分布的自动阈值密度峰值聚类算法[J]. 计算机工程与应用, 2021, 57(5): 71-78.
[8]	李勇振，廖湖声. 基于图卷积神经网络的多视角聚类[J]. 计算机工程与应用, 2021, 57(5): 115-122.
[9]	王昌龙，张远东，缪宏，杨煜恒. 双通道卷积神经网络在南瓜病害识别上的应用[J]. 计算机工程与应用, 2021, 57(5): 183-189.
[10]	胡晓敏，王明丰，张首荣，李敏. 用于文本聚类的新型差分进化粒子群算法[J]. 计算机工程与应用, 2021, 57(4): 61-67.
[11]	王俊玲，卢新明. 基于语义相关的视频关键帧提取算法[J]. 计算机工程与应用, 2021, 57(4): 192-198.
[12]	王芙银，张德生，张晓. 结合鲸鱼优化算法的自适应密度峰值聚类算法[J]. 计算机工程与应用, 2021, 57(3): 94-102.
[13]	陈俊丰，郑中团. WKMeans与SMOTE结合的不平衡数据过采样方法[J]. 计算机工程与应用, 2021, 57(23): 106-112.
[14]	张忠林，赵昱，闫光辉. 自然邻居密度极值聚类算法[J]. 计算机工程与应用, 2021, 57(23): 200-210.
[15]	梅婕，魏圆圆，许桃胜. 基于密度峰值多起始中心的融合聚类算法[J]. 计算机工程与应用, 2021, 57(22): 78-85.

基于概率潜在语义分析的Web用户聚类

Web user clustering based on Probabilistic Latent Semantic Analysis

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics