计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (24): 72-78.DOI: 10.3778/j.issn.1002-8331.1709-0227
孙 舟1,田贺平1,潘鸣宇1,王伟贤1,张 禄1,陈 光2
SUN Zhou1, TIAN Heping1, PAN Mingyu1, WANG Weixian1, ZHANG Lu1, CHEN Guang2
摘要: 近年来,工业界和学术界面临着非常严重的数据缺失问题,缺失值极大降低了数据可用性。现有的缺失值填充技术需要较大的时间开销,很难满足大数据查询实时性的需求,为此,研究在有缺失值的情况下高效处理聚集查询,将基于采样的近似聚集查询处理与缺失值填充技术有效的结合,快速返回满足用户需求的聚集结果。采用基于块(block-level)的采样策略,在采集到的样本上进行缺失值填充,并根据缺失值填充的结果重构得到聚集结果的无偏估计。真实数据集和合成数据集上的实验结果表明,该文的方法比当前最好的方法在保证相同精度的前提下,大大提升了查询效率。