计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (24): 57-60.DOI: 10.3778/j.issn.1002-8331.1808-0400
陈 建,张小红
CHEN Jian, ZHANG Xiaohong
摘要: 针对大数据环境下数据冗余量大的问题,以粗糙集理论为基础,提出了一种基于香农信息熵(Shannon entropy)融合模糊综合评判的相似重复数据检测方法,首先基于香农熵对数据集中的属性进行约简,然后采用模糊综合评判方法获取约简后各属性的重要性权值,最后依据约简属性及其权值进行相似数据的检测。理论分析与实验对比表明,该方法在结构化大数据集的相似数据检测中,有较高的检测精度与效率。