《计算机工程与应用》唯一官方网站
 首页  |  期刊介绍  |  编委会  |  投稿指南  |  道德声明  |  中图分类号  |  期刊订阅  |  联系我们  |  English
计算机工程与应用
数据库、数据挖掘、机器学习 最新目录 | 下期目录 | 过刊浏览 | 高级检索  |   
一种CF树结合KNN图划分的文本聚类算法
仰孝富,齐建东,吉鹏飞,朱文飞
北京林业大学 信息学院,北京 100083
New text clustering algorithm based on CF tree and KNN graph partition
YANG Xiaofu, QI Jiandong, JI Pengfei, ZHU Wenfei
School of Information, Beijing Forestry University, Beijing 100083, China
 全文: PDF (595 KB)   HTML (1 KB)  输出: BibTeX | EndNote (RIS)      背景资料
摘要 为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK(a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚类效果。对比实验结果表明,该算法聚类有效性与稳定性都得到较大提高。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
仰孝富
齐建东
吉鹏飞
朱文飞
关键词文本聚类   向量空间模型   传统的且非常高效的层次聚类算法(BIRCH)   K最近邻     
Abstract: In order to improve the effect of text clustering, and to mend the flaws of traditional clustering algorithm in parameter setting and algorithm stability, a new text clustering algorithm TCBIBK(a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor) is presented. TCBIBK uses BIRCH clustering algorithm as the prototype. During the process of clustering, besides analyzing the distance between text objects and clusters, TCBIBK also analyzes the distance between clusters and clusters, takes the active cluster merging or segmentation, and sets the dynamic threshold. Combined with KNN classification algorithm, TCBIBK improves the algorithm stability under the premise of ensuring the good efficiency of clustering. When applied to text clustering, TCBIBK can improve the text clustering effect. The results of comparative experiment shows that this algorithm can greatly improve the validity and stability of text clustering.
Key wordstext clustering   vector space model   Balanced Iterative Reducing and Clustering using Hierarchies(BIRCH)   K-nearest neighbor   
引用本文:   
仰孝富,齐建东,吉鹏飞等. 一种CF树结合KNN图划分的文本聚类算法[J]. 计算机工程与应用, 2015, 51(6): 114-119.
YANG Xiaofu,QI Jiandong,JI Pengfei et al. New text clustering algorithm based on CF tree and KNN graph partition[J]. CEA, 2015, 51(6): 114-119.
链接本文:  
http://cea.ceaj.org/CN/
 
没有找到本文相关图表信息
没有本文参考文献
[1] 程玉胜1,2,梁 辉2,王一宾1,2,任 勇2. 结合关键词微变和LD算法的文本相似性研究[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(8): 70-73.
[2] 李宏霞,庞晓琼. 支持多关键字分级的可搜索同态加密方案[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(22): 93-98.
[3] 黎隽男,吕 佳. 结合主动学习与置信度投票的集成自训练方法[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(20): 167-171.
[4] 邱云飞,赵 彬,林明明,王 伟. 结合语义改进的K-means短文本聚类算法[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(19): 78-83.
[5] 谢 晋1,陈延东2. 基于Cost-Sensitive主成分分析的人脸识别[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(15): 24-28.
[6] 李石荣,李飞腾. 基于RSSI概率统计分布的室内定位方法[J]. 《计算机工程与应用》唯一官方网站, 2016, 52(11): 119-124.
[7] 张庆庆,刘西林. 基于依存句法关系的文本情感分类研究[J]. 《计算机工程与应用》唯一官方网站, 2015, 51(22): 28-32.
[8] 刘海峰,刘守生,苏 展. 基于位置的文本分类样本剪裁及加权方法[J]. 计算机工程与应用, 2015, 51(2): 131-135.
[9] 朱俊梅1,顾明亮1,2,张世形2,贾晶晶1. 基于改进Citation-KNN算法的性别识别研究[J]. 《计算机工程与应用》唯一官方网站, 2015, 51(15): 206-210.
[10] 徐晨凯,高茂庭. 使用LSA降维的改进ART2神经网络文本聚类[J]. 计算机工程与应用, 2014, 50(24): 133-138.
[11] 史宝明1,贺元香1,吴崇正2. 主题搜索引擎中爬虫搜索策略的研究[J]. 计算机工程与应用, 2014, 50(2): 116-119.
[12] 徐 鹏1,姜凤茹2. 粒子群算法和K近邻相融合的网络入侵检测[J]. 计算机工程与应用, 2014, 50(11): 95-98.
[13] 马雯雯1,魏文晗1,邓一贵1,2. 基于隐含语义分析的微博话题发现方法[J]. 计算机工程与应用, 2014, 50(1): 96-100.
[14] 吕成戍1,王维国2. 基于SVM-KNN的半监督托攻击检测方法[J]. 计算机工程与应用, 2013, 49(22): 7-10.
[15] 邢玉娟,李恒杰,曹晓丽,张成文. 多级中文文本情感分类算法研究[J]. 计算机工程与应用, 2012, 48(33): 132-135.
版权所有 © 《《计算机工程与应用》唯一官方网站》编辑部
通信地址: 北京619信箱26分箱 邮编: 100083 电话: (010)89055542 E-mail: ceaj@vip.163.com
技术支持:北京玛格泰克科技发展有限公司
京ICP备13024262号-1