计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (21): 72-76.DOI: 10.3778/j.issn.1002-8331.1605-0266
周 星1,刁兴春2,曹建军2
ZHOU Xing1, DIAO Xingchun2, CAO Jianjun2
摘要: 现有的实体分辨方法在准确性和效率上各有所长,将易分辨和难分辨的记录对分开,为下一步分别应用不同分辨方法提供基础。对待划分的记录对,利用变精度邻域粗糙集分别计算相似记录对和不相似记录对的上下近似集,得到全体记录对的上下近似集及对应的边界,处于边界域的记录对即为难分辨的记录对,其余为易分辨的记录对。分析了变精度邻域粗糙集中的包含度阈值和距离阈值对于记录对划分的影响。利用实验比较难分辨、易分辨和原始记录对在利用相似度阈值分类和利用KNN分类时的准确性,说明了划分的有效性。