《计算机工程与应用》唯一官方网站
 首页  |  期刊介绍  |  编委会  |  投稿指南  |  道德声明  |  中图分类号  |  期刊订阅  |  联系我们  |  English
计算机工程与应用
博士论坛 最新目录 | 下期目录 | 过刊浏览 | 高级检索  |   
基于频繁词义序列的检索结果聚类算法研究
王晓博,李  晓,马  博
中科院新疆理化技术研究所 多语种信息技术研究室,乌鲁木齐 830011
Search result clustering algorithm based on frequent itemsets meaning sequence
WANG Xiaobo, LI Xiao, MA Bo
The Xinjiang Technical Institute of Physics & Chemistry, CAS, Urumqi 830011, China
 全文: PDF (613 KB)   HTML (1 KB)  输出: BibTeX | EndNote (RIS)      背景资料
摘要 目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
王晓博
李 晓
马 博
关键词聚类算法   频繁项   信息检索   WordNet     
Abstract: Most of existing web page clustering algorithms are based on short and uneven snippets of web pages, which often cause bad clustering performance. This paper presents a clustering algorithm based on frequent itemsets meaning sequence, which combines the use of WordNet syntactic and semantic features to build the search results clustering and labeling. Most of existing text clustering algorithms use the vector space model, which treats documents as bags of words. A word(meaning)sequence is frequent if it occurs in more than certain percentage of the documents in the text database. Firstly, the text is pre-processed to generate compact document to reduce the dimension of the document, build generalized suffix tree, and dig out the maximum frequent itemsets, then the frequent word meaning sequences is generated. Document theme can be better reflected by frequent itemsets meaning sequence, the search results having same themes clustered together with the user's query prioritization highly relevant. Experimental results show that the clustering algorithm can obtain a high quality cluster that related to the query semantic tags, which has higher accuracy, efficiency and good scalability.
Key wordsclustering algorithm   frequent itemset   information retrieval   WordNet   
引用本文:   
王晓博,李 晓,马 博. 基于频繁词义序列的检索结果聚类算法研究[J]. 计算机工程与应用, 2015, 51(1): 13-20.
WANG Xiaobo,LI Xiao,MA Bo. Search result clustering algorithm based on frequent itemsets meaning sequence[J]. CEA, 2015, 51(1): 13-20.
链接本文:  
http://cea.ceaj.org/CN/
 
没有找到本文相关图表信息
没有本文参考文献
[1] 刘文进1,张 蕾2,孙劲光1. 近邻传播聚类优化的角点检测改进算法[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(9): 219-222.
[2] 李宗林,罗 可. DBSCAN算法中参数的自适应确定[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(3): 70-73.
[3] 董本志,丁文雪. 大数据环境下超声波焊缝缺陷识别方法的研究[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(23): 176-180.
[4] 朱书眉,王 诚. 基于最大频繁项集的图像分类技术[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(23): 181-184.
[5] 兰 红,王秋丽. 基于聚类和马氏距离的多角度SURF图像匹配算法[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(21): 211-217.
[6] 刘慧婷,候明利,赵 鹏,姚 晟. 不确定数据流最大频繁项集挖掘算法研究[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(19): 72-77.
[7] 赵湘民1,2,陈 曦1,潘 楚3. 基于稠密区域的K-medoids聚类算法[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(16): 85-89.
[8] 恩 德,张凤磊,张 昭,忽胜强. 模糊熵在车载环境下语音端点检测中的应用[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(10): 147-150.
[9] 仰孝富,齐建东,吉鹏飞,朱文飞. 一种CF树结合KNN图划分的文本聚类算法[J]. 计算机工程与应用, 2015, 51(6): 114-119.
[10] 刘卫明1,2,蒯海龙1,陈志刚3,毛伊敏1,4. 基于有序树的不确定数据最大频繁项挖掘算法[J]. 《计算机工程与应用》唯一官方网站, 2015, 51(24): 145-149.
[11] 尹绍宏,单坤玉,范桂丹. 滑动窗口中数据流最大频繁项集挖掘算法研究[J]. 《计算机工程与应用》唯一官方网站, 2015, 51(22): 145-149.
[12] 丁邦旭,黄永青. 矩阵与前缀树方法挖掘频繁项集[J]. 《计算机工程与应用》唯一官方网站, 2015, 51(22): 154-157.
[13] 董丽丽,董 玮,张 翔. 利用CUDA提高内存数据聚类效能的研究[J]. 《计算机工程与应用》唯一官方网站, 2015, 51(22): 243-251.
[14] 赵 英,陈骏君. 基于流相关性的网络流量分类[J]. 《计算机工程与应用》唯一官方网站, 2015, 51(21): 25-29.
[15] 喻 勇1,张云伟1,王 静2,王大龙2,王彦钧2,包 俊1. 基于计算机视觉的烟叶病害识别研究[J]. 《计算机工程与应用》唯一官方网站, 2015, 51(20): 167-171.
版权所有 © 《《计算机工程与应用》唯一官方网站》编辑部
通信地址: 北京619信箱26分箱 邮编: 100083 电话: (010)89055542 E-mail: ceaj@vip.163.com
技术支持:北京玛格泰克科技发展有限公司
京ICP备13024262号-1