计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (36): 1-6.DOI: 10.3778/j.issn.1002-8331.2008.36.001
韩京宇1,2,宋爱波2,董逸生2
Approach of quantifying data quality dimensions
HAN Jing-yu1,2,SONG Ai-bo2,DONG Yi-sheng2
摘要: 为了实现自动化的数据质量评估,提出了一种在背景范围内的数据质量量化方法QDC(Quantify Dimensions within Context)。数据质量可以用数据和其对应实体的“完美表达”间的差距来衡量。由于“完美表达”很难获得或代价很高,因此提出在多数据源条件下,数据的“完美表达”可以在其背景范围内用投票获得的“最近似”来替代,从而确定了数据质量评估参照的标准。同时提出利用信息论中信息熵指标,将不同类型数据的质量维度统一为通用的度量。作为一种自动化的数据质量评估方法,QDC方法不仅能够对数据的准确性和完整性维度给出准确的评估值,并且具有很高的计算效率。