计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (19): 65-70.DOI: 10.3778/j.issn.1002-8331.1609-0098
曲朝阳1,陈贺新1,胡可为2,刘耀伟3,独健鸿4
QU Zhaoyang1, CHEN Hexin1, HU Kewei2, LIU Yaowei3, DU Jianhong4
摘要: 随着大数据理念在电力行业的应用,构建电力调度数据仓库是支撑电力调度中心统一数据平台的基础,针对电力调度中心的数据仓库将多源数据整合时面临的重复冗余和不一致问题,提出一种基于Spark的电力调度数据整合模型。设计并行化正向最大匹配去冗算法,对多个系统内冗余数据进行过滤操作;给出面向关联度的数据一致性处理方法,依据特征向量的夹角余弦值判断数据间的联系,进而对不一致数据修复。通过对某电力调度中心的数据进行整合实验,验证了该数据整合模型的可行性。