频繁项集在Deep Web数据源聚类中的应用

计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (14): 152-157.

• 数据库、信号与信息处理 • 上一篇下一篇

频繁项集在Deep Web数据源聚类中的应用

张蓬飞，朱群雄

北京化工大学信息科学与技术学院，北京 100029

出版日期:2012-05-11 发布日期:2012-05-14

Deep Web data source clustering using frequent itemsets

ZHANG Pengfei, ZHU Qunxiong

College of Information Science and Technology, Beijing University of Chemical Technology, Beijing 100029, China

Online:2012-05-11 Published:2012-05-14

摘要/Abstract

摘要： 在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分，是Deep Web数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果，存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息，基于频繁项集的聚类方法，根据数据源查询接口所在页面的标题、关键词和提示文本，将数据源按照领域进行聚类，有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的，具有较高的效率。

关键词: 深层网络, 数据源聚类, 文本聚类, 频繁项集, 数据集成

Abstract: There are thousands of data sources hiding behind the Deep Web pages which can be accessed through structured query interfaces. Organizing these data sources by their domains has become an important step in Deep Web data integration process. Existing methods mainly focus on query interface schema and query results which have the disadvantages of difficulty in extracting interface schemas and deficiency of submitting queries to the database. A method based on frequent itemsets is proposed to cluster the data sources by their domains. This method considers the Web page text information such as title, key words and label text and solves the problems of overdependency on the query interface and high dimensionality of text processing in traditional solutions. Experimental results show effectiveness and efficiency of this method.

Key words: Deep Web, data source clustering, text clustering, frequent itemsets, data integration

张蓬飞，朱群雄. 频繁项集在Deep Web数据源聚类中的应用[J]. 计算机工程与应用, 2012, 48(14): 152-157.

ZHANG Pengfei, ZHU Qunxiong. Deep Web data source clustering using frequent itemsets[J]. Computer Engineering and Applications, 2012, 48(14): 152-157.

[1]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[2]	胡晓敏，王明丰，张首荣，李敏. 用于文本聚类的新型差分进化粒子群算法[J]. 计算机工程与应用, 2021, 57(4): 61-67.
[3]	潘成胜，张斌，吕亚娜，杜秀丽，邱少明. 改进灰狼优化算法的K-Means文本聚类[J]. 计算机工程与应用, 2021, 57(1): 188-193.
[4]	张卫卫，胡亚琦，翟广宇，刘志鹏. 基于LDA模型和Doc2vec的学术摘要聚类方法[J]. 计算机工程与应用, 2020, 56(6): 180-185.
[5]	顾军华，苏鸣，张亚娟，张丹红. 基于位编码链表的快速频繁模式挖掘算法研究[J]. 计算机工程与应用, 2020, 56(19): 86-93.
[6]	张云纯，张琨，徐济铭，袁卫平，蔡颖，高雅. 基于图模型的多文档摘要生成算法[J]. 计算机工程与应用, 2020, 56(16): 124-131.
[7]	石陆魁1，张欣1，师胜利2. 基于Spark的FP_Growth算法的并行与优化[J]. 计算机工程与应用, 2018, 54(13): 52-58.
[8]	向江1，陈移兵2，杨毅3. 全国公共数字文化共享云服务平台研究与设计[J]. 计算机工程与应用, 2018, 54(13): 258-265.
[9]	王彬宇1，刘文芬2，胡学先1，魏江宏1. 基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用, 2018, 54(10): 11-18.
[10]	刘琰，张进，陈静，尹美娟，张伟丽. 基于最大频繁项集挖掘的微博炒作群体发现方法[J]. 计算机工程与应用, 2017, 53(4): 90-97.
[11]	宋奎勇1，2，王念滨1，王红滨1，寇香霞2. 结合最近邻与闭模式子空间聚类方法[J]. 计算机工程与应用, 2017, 53(16): 134-137.
[12]	张博1，温彦2，陈明3，陈婷婷2. 支持异构数据按需集成的数据服务聚合代数[J]. 计算机工程与应用, 2017, 53(15): 68-76.
[13]	朱书眉，王诚. 基于最大频繁项集的图像分类技术[J]. 计算机工程与应用, 2016, 52(23): 181-184.
[14]	刘慧婷，候明利，赵鹏，姚晟. 不确定数据流最大频繁项集挖掘算法研究[J]. 计算机工程与应用, 2016, 52(19): 72-77.
[15]	邱云飞，赵彬，林明明，王伟. 结合语义改进的K-means短文本聚类算法[J]. 计算机工程与应用, 2016, 52(19): 78-83.

频繁项集在Deep Web数据源聚类中的应用

Deep Web data source clustering using frequent itemsets

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics