摘要: 针对文件级单布鲁姆过滤器排重算法只能以文件为单位进行数据排重,数据块级单布鲁姆过滤器排重算法耗时过多的缺点,采用2个布鲁姆过滤器,创建文件级和数据块级2级数据排重的算法结构。实验结果表明,双布鲁姆过滤器排重算法可以以数据块为单位对数据排重,在保持低假阳性误判率的同时,相比数据块级单布鲁姆过滤器排重算法耗时缩短了43%~68%。
席晔文,杨金民. 基于双布鲁姆过滤器的数据排重技术[J]. 计算机工程与应用, 2014, 50(23): 198-202.
XI Yewen, YANG Jinmin. Duplicate data delete technology based on double bloom filter[J]. Computer Engineering and Applications, 2014, 50(23): 198-202.