基于相邻模式段组合的生物序列模式挖掘算法

计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (2): 190-193.

基于相邻模式段组合的生物序列模式挖掘算法

王淼,尚学群,薛贺

西北工业大学计算机学院，西安 710072

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-01-11 发布日期:2008-01-11
通讯作者: 王淼

Joined pattern segment-based sequential patternmining algorithm for biological datasets

WANG Miao,SHANG Xue-qun,XUE He

School of Computer，Northwestern Polytechnical University，Xi’an 710072，China

Received:1900-01-01 Revised:1900-01-01 Online:2008-01-11 Published:2008-01-11
Contact: WANG Miao

摘要/Abstract

摘要： 传统的序列模式挖掘算法应用在生物序列上有其局限性，根据生物序列的特点，提出了基于相邻频繁模式段的模式挖掘算法－JPS。首先产生相邻频繁模式段，然后对这些频繁模式段进行组合，产生新的频繁模式。通过实验分析，该方法在相似性很强的序列数据库中比传统的PrefixSpan算法效率高。通过对真实的蛋白质序列家族库的处理，证明该算法能有效处理生物序列数据。

关键词: 前缀, 频繁集, 相邻频繁模式段, 模式组合

Abstract: Traditional algorithms for sequential pattern mining have limits when dealing with biological datasets.Biology sequence has its own characters.Based on these characters，the author develops Joined frequent Pattern Segment approach，JPS，for mining biological sequences.First，the joined frequent pattern segments are produced.Then，longer frequent patterns can be obtained by combining the above segments.The experiment shows JPS has better performance than PrefixSpan.Through dealing with the real protein family database，it is proved that the algorithm can deal with biology sequence data efficiently.

Key words: prefix, frequent set, joined frequent pattern segment, pattern combination

王淼,尚学群,薛贺. 基于相邻模式段组合的生物序列模式挖掘算法[J]. 计算机工程与应用, 2008, 44(2): 190-193.

WANG Miao,SHANG Xue-qun,XUE He. Joined pattern segment-based sequential patternmining algorithm for biological datasets[J]. Computer Engineering and Applications, 2008, 44(2): 190-193.

[1]	王永贵，郭昕彤. SparkSql上自适应数据集的高效频繁集挖掘算法[J]. 计算机工程与应用, 2020, 56(21): 72-78.
[2]	洪征，田益凡，张洪泽，吴礼发. 基于扩展前缀树的协议格式推断方法[J]. 计算机工程与应用, 2018, 54(12): 14-20.
[3]	杨晓非，牛翠翠，丁志鹏，张宏宇. NDN中快速的贪婪名称查找策略[J]. 计算机工程与应用, 2016, 52(11): 44-49.
[4]	丁邦旭，黄永青. 矩阵与前缀树方法挖掘频繁项集[J]. 计算机工程与应用, 2015, 51(22): 154-157.
[5]	曾党泉. 基于PDC编码的中文文本压缩算法[J]. 计算机工程与应用, 2015, 51(17): 205-209.
[6]	买买提依明·哈斯木1，2，吾守尔·斯拉木1，维尼拉·木沙江1. 维吾尔文后缀树构造算法的设计与实现[J]. 计算机工程与应用, 2013, 49(8): 9-11.
[7]	高海洋1，2，沈强1，张轩溢1，赵志军1. 一种基于数据压缩的Apriori算法[J]. 计算机工程与应用, 2013, 49(14): 117-120.
[8]	杨宁，陈群. XML关键字检索中Dewey码存储方式的研究[J]. 计算机工程与应用, 2013, 49(1): 137-140.
[9]	蒲斌，赵海军，李明东. OFDM中用循环前缀实现符号定界同步算法[J]. 计算机工程与应用, 2011, 47(29): 146-148.
[10]	李广水¹，李杨²，马青霞¹，宋丁全¹. 基于频繁集的图像特征抽取[J]. 计算机工程与应用, 2010, 46(20): 149-152.
[11]	梁刚¹，赵伟²，张洵颖³. 分布算术并行结构设计研究[J]. 计算机工程与应用, 2010, 46(12): 75-78.
[12]	谢志强¹,高鹏飞¹,杨静². 基于前缀码的DES算法改进研究[J]. 计算机工程与应用, 2009, 45(9): 92-94.
[13]	龚国强,葛万成. 移动数字电视接收机的符号同步方法[J]. 计算机工程与应用, 2009, 45(3): 113-115.
[14]	戴祖旭，陈静. 基于前缀码的随机数发生器[J]. 计算机工程与应用, 2009, 45(29): 82-83.
[15]	胡中栋，罗会兰，曾珽. 基于FP-Tree的共享前缀频繁项集挖掘算法[J]. 计算机工程与应用, 2009, 45(27): 137-139.