基于压缩全文索引的演变图查询

计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (2): 117-124.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

基于压缩全文索引的演变图查询

肖洋1，2，朱青1，2，吴粤皖1

1.中国人民大学信息学院计算机系，北京 100872
2.中国人民大学信息学院数据工程与知识工程教育部重点实验室，北京 100872

出版日期:2015-01-15 发布日期:2015-01-12

Querying on evolving graphs based on compressed full-text index

XIAO Yang1，2, ZHU Qing1，2, WU Yuewan1

1.Department of Computer Science, School of Information, Renmin University of China, Beijing 100872, China
2.Key Laboratory of Data Engineering and Knowledge Engineering, School of Information, Renmin University of China, Beijing 100872, China

Online:2015-01-15 Published:2015-01-12

摘要/Abstract

摘要： 演变图中含有大量的时间和空间信息，其中某些空间信息随着时间的推移表现出相似的演变规律。给出了一种演变图查询模型，可以挖掘出在相同时间范围内具有相同变化规律的演变子图。但是演变图的规模往往是巨大的，当需要对其进行多次查询时，每次遍历整个演变图将带来非常高的查询代价，而现有的基于枚举的哈希索引算法又使得预处理过程拥有相当大的时间和空间开销，为了减少对大规模演变图的预处理代价，将压缩的全文索引技术应用于演变图，它基于涡轮转换和后缀数组。在构建后缀数组时，给出了两种不同的线性算法，确保了预处理过程的稳定性。通过在Facebook、Enron邮件系统以及模拟数据集上的实验，评估了该算法的可行性、效率以及可扩展性。

关键词: 演变图, 查询, 演变子图, 后缀数组, 压缩全文索引

Abstract: Evolving graph contains large amount of temporal and spatial information, some of which always perform in similar evolving rules. This paper gives a query model, mining for the evolving subgraphs whose edges changing in the same way at the same time range. However, the size of evolving graphs in real world is huge. Querying on it repeatedly will cost a lot. Even though the existing index method based on Hash has solved query problem, it is also faced in challenge of preprocessing. In order to reduce the price of preprocessing in mass evolving graph, it proposes a compressed full-text indexing technique. It is based on Burrows-Wheeler transform and suffix array. In constructing a suffix array, it also gives two different linear algorithms, ensuring the stability of preprocessing. It evaluates the feasibility, efficiency and scalability of the algorithm on Facebook, Enron email system and simulated datasets.

Key words: evolving graph, query, evolving subgraph, suffix array, compressed full-text index

肖洋1，2，朱青1，2，吴粤皖1. 基于压缩全文索引的演变图查询[J]. 计算机工程与应用, 2015, 51(2): 117-124.

XIAO Yang1，2, ZHU Qing1，2, WU Yuewan1. Querying on evolving graphs based on compressed full-text index[J]. Computer Engineering and Applications, 2015, 51(2): 117-124.

[1]	吕鑫，赵连成，余记远，谭彬，曾涛，陈娟. 基于轨迹聚类的连续查询隐私保护方法[J]. 计算机工程与应用, 2021, 57(2): 104-112.
[2]	石晨，张宇，胡博. 基于共同语境的近义词/同义词短语查找模型[J]. 计算机工程与应用, 2021, 57(14): 142-147.
[3]	许斌，梁晓兵，沈博. 大数据环境中非交互式查询差分隐私保护模型[J]. 计算机工程与应用, 2020, 56(7): 116-121.
[4]	郭莎莎，李爽，阎红灿. 已知时间的空间文本skyline查询[J]. 计算机工程与应用, 2020, 56(24): 59-65.
[5]	黄涛贻，李优，宋浩，林煜明. 大规模商品知识的组织和查询优化[J]. 计算机工程与应用, 2020, 56(21): 154-163.
[6]	张孝，孙一铭，吴旭峰. 查询感知的关系-图数据库自适应存储技术研究[J]. 计算机工程与应用, 2020, 56(17): 100-108.
[7]	蔡盼，李昕，孟祥福，褚治广. 基于贪心策略的最近邻Top-k偏好查询方法[J]. 计算机工程与应用, 2020, 56(16): 55-61.
[8]	李艳，王阳阳，张红岩，武优西. 不可达顶点剪枝算法及其在最短路径中的应用[J]. 计算机工程与应用, 2020, 56(15): 51-57.
[9]	王永录，左开中，曾海燕，刘蕊，郭良敏. 面向连续查询的敏感语义位置隐私保护方案[J]. 计算机工程与应用, 2020, 56(14): 74-81.
[10]	郑伟，侯宏旭，班志杰. 贝叶斯网络查询语义扩展的专家发现方法[J]. 计算机工程与应用, 2020, 56(13): 194-198.
[11]	滕增德，廖祝华. 面向命名数据网络的数据查询区分服务机制[J]. 计算机工程与应用, 2019, 55(9): 17-25.
[12]	吕伟，宋文爱，富丽贞，许文. 大规模图数据边受限制的最短距离查询算法[J]. 计算机工程与应用, 2019, 55(7): 71-81.
[13]	关巍1，张磊2. 粒子群属性聚类的位置隐私保护[J]. 计算机工程与应用, 2019, 55(5): 96-104.
[14]	王泓机，戴炳荣，李超，张绍华. 针对区块链应用的查询优化模型[J]. 计算机工程与应用, 2019, 55(22): 34-39.
[15]	牛少章，欧毓毅，凌捷，顾国生. 基于网格查询的局部离群点检测算法[J]. 计算机工程与应用, 2019, 55(17): 89-94.

基于压缩全文索引的演变图查询

Querying on evolving graphs based on compressed full-text index

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics