基于全局性确定聚类中心的文本聚类

计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (10): 147-150.

• 数据库、信号与信息处理 • 上一篇下一篇

基于全局性确定聚类中心的文本聚类

陈建超1，胡桂武1，杨志华2，严桂夺3

1.广东商学院数学与计算科学学院，广州 510320
2.广东商学院信息学院，广州 510320
3.华南理工大学计算机科学与工程学院，广州 510640

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2011-04-01 发布日期:2011-04-01

Text clustering based on global center-determination

CHEN Jianchao1，HU Guiwu1，YANG Zhihua2，YAN Guiduo3

1.School of Mathematics & Computational Science，Guangdong University of Business Studies，Guangzhou 510320，China
2.School of Information Science，Guangdong University of Business Studies，Guangzhou 510320，China
3.School of Computer Science and Engineering，South China University of Technology，Guangzhou 510640，China

Received:1900-01-01 Revised:1900-01-01 Online:2011-04-01 Published:2011-04-01

摘要/Abstract

摘要： 文本聚类关键是有效解决特征词向量选择及特征词权重计算方法、文本相似度计算方法、聚类中心确定等三个问题。针对相关算法在三个关键环节上存在的问题，提出了适合自由文本特点的特征词权重计算方法和文本相似度计算方法；在此基础上提出了改进的CBC算法，从全局上自适应地确定文本集中的各个聚类中心。算法在实验中准确地确定了各个聚类中心，并在两个文本集上分别获得88.50％和94.00％的聚类准确率。

关键词: 文本聚类, 全局性, 聚类质心, 特征词集

Abstract: The three key points of text clustering are feature selection and weight calculation，texts similarity calculation and cluster center determination.This paper proposes two new methods based on the characteristic of free texts for feature-weight calculation and texts similarity calculation separately.Then an improved CBC algorithm is proposed to determine the cluster centers adaptively and globally.This algorithm produces all cluster center correctly，and obtains precision of 88.50％ and 94.00％ for two different text-set separately.

Key words: text clustering, global, cluster centroid, feature set

陈建超1，胡桂武1，杨志华2，严桂夺3. 基于全局性确定聚类中心的文本聚类[J]. 计算机工程与应用, 2011, 47(10): 147-150.

CHEN Jianchao1，HU Guiwu1，YANG Zhihua2，YAN Guiduo3. Text clustering based on global center-determination[J]. Computer Engineering and Applications, 2011, 47(10): 147-150.

[1]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[2]	胡晓敏，王明丰，张首荣，李敏. 用于文本聚类的新型差分进化粒子群算法[J]. 计算机工程与应用, 2021, 57(4): 61-67.
[3]	潘成胜，张斌，吕亚娜，杜秀丽，邱少明. 改进灰狼优化算法的K-Means文本聚类[J]. 计算机工程与应用, 2021, 57(1): 188-193.
[4]	张卫卫，胡亚琦，翟广宇，刘志鹏. 基于LDA模型和Doc2vec的学术摘要聚类方法[J]. 计算机工程与应用, 2020, 56(6): 180-185.
[5]	张云纯，张琨，徐济铭，袁卫平，蔡颖，高雅. 基于图模型的多文档摘要生成算法[J]. 计算机工程与应用, 2020, 56(16): 124-131.
[6]	王彬宇1，刘文芬2，胡学先1，魏江宏1. 基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用, 2018, 54(10): 11-18.
[7]	邱云飞，赵彬，林明明，王伟. 结合语义改进的K-means短文本聚类算法[J]. 计算机工程与应用, 2016, 52(19): 78-83.
[8]	仰孝富，齐建东，吉鹏飞，朱文飞. 一种CF树结合KNN图划分的文本聚类算法[J]. 计算机工程与应用, 2015, 51(6): 114-119.
[9]	刘海峰，刘守生，苏展. 基于位置的文本分类样本剪裁及加权方法[J]. 计算机工程与应用, 2015, 51(2): 131-135.
[10]	徐晨凯，高茂庭. 使用LSA降维的改进ART2神经网络文本聚类[J]. 计算机工程与应用, 2014, 50(24): 133-138.
[11]	焦芬芬. 基于概念和语义相似度的文本聚类算法[J]. 计算机工程与应用, 2012, 48(18): 136-141.
[12]	张蓬飞，朱群雄. 频繁项集在Deep Web数据源聚类中的应用[J]. 计算机工程与应用, 2012, 48(14): 152-157.
[13]	张玉芳，张洪，熊忠阳，李文田. 结合概率潜在语义分析的文本谱聚类方法研究[J]. 计算机工程与应用, 2011, 47(36): 134-136.
[14]	白秋产1，金春霞2，周海岩2. 概念向量文本聚类算法[J]. 计算机工程与应用, 2011, 47(35): 155-157.
[15]	金春霞，周海岩. 动态向量的中文短文本聚类[J]. 计算机工程与应用, 2011, 47(33): 156-158.

基于全局性确定聚类中心的文本聚类

Text clustering based on global center-determination

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics