同源搜索是生物信息学在分子生物学,蛋白质功能分析和药物开发领域的巨大应用。 为了在不断增长的数据库中执行批量搜索,基本方法是对每个原始查询运行Blast或通过将它们分组在一起来串联查询。 本文提出了一种增强的具有序列压缩和聚类的蛋白质同源性批量搜索算法(C2-BLASTP),该算法利用了查询序列和数据库之间的联合信息。 在C2-BLASTP中,查询和数据库首先通过冗余分析进行压缩。 然后根据子序列相似度对数据库进行聚类。 此后,可以在群集数据库中实现命中查找。 此外,基于潜在的命中结果来重建最终执行数据库,以减轻序列数据库不断扩大的规模。 最后,在执行数据库中进行同源批搜索。 在NCBI NR数据库上进行的实验证明,在同源性准确性,搜索速度和内存使用方面,C2-BLASTP对于同源性批量搜索的有效性。
2021-02-25 16:06:23
256KB
研究论文
1