计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (9): 125-128.
胡嘉琪,陈 群,刘海龙,杜 晶,徐 曜,李战怀
HU Jiaqi, CHEN Qun, LIU Hailong, DU Jing, XU Yao, LI Zhanhuai
摘要: 在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。