基于概念和语义相似度的文本聚类算法

计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (18): 136-141.

• 数据库、信号与信息处理 • 上一篇下一篇

基于概念和语义相似度的文本聚类算法

焦芬芬

中国空空导弹研究院，河南洛阳 471009

出版日期:2012-06-21 发布日期:2012-06-20

Clustering method based on concept and semantic similarity

JIAO Fenfen

Avic China Airborne Missile Academy, Luoyang, Henan 471009, China

Online:2012-06-21 Published:2012-06-20

摘要/Abstract

摘要： 提出一种基于概念和语义相似度的聚类算法TCBCSS（Text Clustering Based on Concept and Semantic Similarity），TCBCSS算法基于WordNet对文档概念进行抽取和归并，形成语义网络，利用小世界理论和网络的几何特性对其进行分析并构建概念列表来表示文档，不仅有效解决了“表达差异”问题也有利于文档相似度的计算。TCBCSS算法利用两个概念列表的语义相似度作为文档间相近程度的度量，以图为基础进行聚类分析，避免了有些聚类算法对聚簇形状的限制，试验证明TCBCSS算法提高了聚类质量。

关键词: 文本聚类, 概念, 文本表示, 小世界理论, 语义相似度

Abstract: This paper introduces a new document clustering method using concept and semantic similarity—Text Clustering Based on Concept and Semantic Similarity（TCBCSS）. Key concept is extracted, instead of the keyword, to form semantic network. The semantic network is analyzed using Six Degrees of Separation and geometric characteristics, to build concept lists, which represent the document. This not only resolves the problem of differentially expressed, but also is more convenient for similarity computation. TCBCSS algorithm uses semantic similarity of concept lists as a measure of similarity between the two documents, and clusters the document based on graph, to avoid some?limitations?of?the?clustering algorithm?on?the?clustered shape. Experimental results prove that TCBCSS algorithm improves the quality of the clustering.

Key words: text clustering, concept, text representation, Six Degrees of Separation, semantic similarity

焦芬芬. 基于概念和语义相似度的文本聚类算法[J]. 计算机工程与应用, 2012, 48(18): 136-141.

JIAO Fenfen. Clustering method based on concept and semantic similarity[J]. Computer Engineering and Applications, 2012, 48(18): 136-141.

[1]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[2]	胡晓敏，王明丰，张首荣，李敏. 用于文本聚类的新型差分进化粒子群算法[J]. 计算机工程与应用, 2021, 57(4): 61-67.
[3]	张呈玲，李进金，林艺东. 基于OE-概念格的形式背景属性约简[J]. 计算机工程与应用, 2021, 57(15): 82-89.
[4]	乔伟涛，黄海燕，王珊. 基于Transformer编码器的语义相似度算法研究[J]. 计算机工程与应用, 2021, 57(14): 158-163.
[5]	王俊红，郭亚慧. 面向动态数据块的非平衡数据流分类算法[J]. 计算机工程与应用, 2021, 57(13): 124-129.
[6]	谢祥，张茜茹，张婧，高新宇. 面向领域建模的信息系统构件识别方法研究[J]. 计算机工程与应用, 2021, 57(12): 105-114.
[7]	杨葛英，沈夏炯，史先进，张磊. 以概念格为背景的关联规则可视化[J]. 计算机工程与应用, 2021, 57(1): 84-91.
[8]	潘成胜，张斌，吕亚娜，杜秀丽，邱少明. 改进灰狼优化算法的K-Means文本聚类[J]. 计算机工程与应用, 2021, 57(1): 188-193.
[9]	张卫卫，胡亚琦，翟广宇，刘志鹏. 基于LDA模型和Doc2vec的学术摘要聚类方法[J]. 计算机工程与应用, 2020, 56(6): 180-185.
[10]	徐清妍，何丽，朱泓西. 改进Hoeffding不等式的概念漂移检测方法[J]. 计算机工程与应用, 2020, 56(19): 55-61.
[11]	张云纯，张琨，徐济铭，袁卫平，蔡颖，高雅. 基于图模型的多文档摘要生成算法[J]. 计算机工程与应用, 2020, 56(16): 124-131.
[12]	胡阳，胡学钢，李培培. 基于Spark的快速短文本数据流分类方法[J]. 计算机工程与应用, 2020, 56(14): 138-147.
[13]	王诗宇，刘洪星，范家佳. 移动用户界面概念模型到代码的转换方法研究[J]. 计算机工程与应用, 2020, 56(10): 240-245.
[14]	折延宏，胡梦婷，贺晓丽，曾望林. 两种多粒度形式概念分析模型的比较研究[J]. 计算机工程与应用, 2020, 56(10): 51-55.
[15]	姜振东1，王建明1，潘吴斌2. 基于概念漂移检测的自适应流量分类方法[J]. 计算机工程与应用, 2019, 55(3): 68-75.

基于概念和语义相似度的文本聚类算法

Clustering method based on concept and semantic similarity

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics