上传者: 38742453
|
上传时间: 2023-03-16 02:34:42
|
文件大小: 640KB
|
文件类型: PDF
通常可以将信息抽象为有限字母上的字符序列。 随着大数据时代的到来,来自各个应用领域(例如,生物序列)的序列的长度和大小不断增加,导致了经典的NP难题,即寻找多个序列的多个最长公共子序列(即MLCS问题在生物信息学,计算基因组学,模式识别等领域具有许多应用),成为研究热点并面临严峻挑战。 在本文中,我们首先揭示了基于主导点的MLCS算法很难应用于长序列和大规模序列比对。 为了克服它们的缺点,基于提出的问题解决模型和并行拓扑排序策略,我们提出了一种新颖的高效并行MLCS算法。 对随机序列和生物学序列的基准数据集进行的综合实验表明,该算法的时间和空间复杂度仅与对齐序列的优势线性相关,并且该算法大大优于现有算法的状态。先进的基于优势点的MLCS算法,因此非常适合于长距离和大规模序列比对。