一种在高维空间中聚类检测重复记录的新方法

doi:10.3778/j.issn.1002-8331.2008.29.048

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (29): 171-173.DOI: 10.3778/j.issn.1002-8331.2008.29.048

• 数据库、信号与信息处理 • 上一篇下一篇

一种在高维空间中聚类检测重复记录的新方法

曹渠江,董明

上海理工大学计算机与电气工程学院，上海 200093

收稿日期:2007-12-03 修回日期:2008-03-03 出版日期:2008-10-11 发布日期:2008-10-11
通讯作者: 曹渠江

New approach for clustering similar duplicate records based on high dimensions

CAO Qu-jiang,DONG Ming

Department of Computer and Electrical Engineering，University of Shanghai for Science and Technology，Shanghai 200093，China

Received:2007-12-03 Revised:2008-03-03 Online:2008-10-11 Published:2008-10-11
Contact: CAO Qu-jiang

摘要/Abstract

摘要： 数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记录的新方法，该方法是基于N-gram将关系表中的记录映射到高维空间中，并且通过可调密度的改进型DBSCAN算法IDS来聚类检测相似重复记录。并用实验证明了这种方法的有效性。

关键词: 相似重复记录, N-gram, 入侵检测系统

Abstract: Data cleaning is an important area of data warehouse.Detecting duplicate records is a critical task in data cleaning.A new duplicate detection methods is proposed in this paper.The approach based on N-gram mappings all records in a relation to a high dimensions and clusters duplicate records through an improved DBSCAN algorithms which named IDS.IDS can cluster approximately duplicate records by using adjustable density.At last the experimental results prove the approach’s effectiveness.

Key words: approximately duplicate database, N-gram, Intrusion Detection System（IDS）

曹渠江,董明. 一种在高维空间中聚类检测重复记录的新方法[J]. 计算机工程与应用, 2008, 44(29): 171-173.

CAO Qu-jiang,DONG Ming. New approach for clustering similar duplicate records based on high dimensions[J]. Computer Engineering and Applications, 2008, 44(29): 171-173.

[1]	刘海燕，张钰，毕建权，邢萌. 基于分布式及协同式网络入侵检测技术综述[J]. 计算机工程与应用, 2018, 54(8): 1-6.
[2]	王歧1，2，3，卢毓海1，3，刘洋1，3，刘燕兵1，3，谭建龙1，3，孙波4. 支持模式串动态更新的多模式匹配Karp-Rabin算法[J]. 计算机工程与应用, 2017, 53(4): 39-44.
[3]	孙剑，刘渊，赵新杰. 基于聚类的应用层DDoS攻击检测方法研究[J]. 计算机工程与应用, 2016, 52(21): 116-120.
[4]	赵旭，王伟. 结合遗传算法的NIDS多媒体包多线程择危模型[J]. 计算机工程与应用, 2016, 52(14): 115-118.
[5]	陈明1，文颖1，谭涛2. WSN中基于MDP与博弈论的入侵检测系统[J]. 计算机工程与应用, 2015, 51(9): 117-121.
[6]	张伟1，董群锋2. 云安全综合分析系统的设计与实现[J]. 计算机工程与应用, 2014, 50(19): 89-94.
[7]	郭文龙. 基于长度过滤和有效权值的SNM改进算法[J]. 计算机工程与应用, 2014, 50(19): 123-127.
[8]	翁广安. 基于模拟数据集的字节频度入侵检测研究[J]. 计算机工程与应用, 2014, 50(12): 96-99.
[9]	雷向宇，周萍. 支持向量分类机在入侵检测中的应用研究[J]. 计算机工程与应用, 2013, 49(11): 88-91.
[10]	燕红文. 基于Snort的改进BMH单模式匹配算法研究[J]. 计算机工程与应用, 2012, 48(31): 78-81.
[11]	龚媛媛. 一种基于域的无线Ad HOC网络入侵检测系统[J]. 计算机工程与应用, 2012, 48(28): 123-126.
[12]	陈宇，梁刚，李涛. 网络入侵检测系统的负载均衡方案[J]. 计算机工程与应用, 2011, 47(7): 117-119.
[13]	廖年冬1，易禹1，胡琦2. 动态实时网络安全风险评估研究[J]. 计算机工程与应用, 2011, 47(36): 12-15.
[14]	卢永菁，王东. 基于GPU的高速网络入侵检测系统设计[J]. 计算机工程与应用, 2011, 47(33): 78-81.
[15]	赵月爱1，2，陈俊杰2. 重抽样方法FHNN及其在入侵检测中的应用[J]. 计算机工程与应用, 2011, 47(22): 86-88.

一种在高维空间中聚类检测重复记录的新方法

New approach for clustering similar duplicate records based on high dimensions

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics