这个脚本做什么? 这是用于在FASTA文件中查找端粒重复序列(TTAGGG / CCCTAA)的工具。 该脚本不做什么? 它只会在序列的开头和结尾寻找端粒。 它仅查找TTAGGG / CCCTAA重复序列的变体。 它是如何做到的? 它以FASTA文件作为输入,并逐一遍历其中的序列。 在每个序列的开头和结尾,它都会忽略N(未知碱基)。 对于每个序列,它将查看前(最后)50个核苷酸,并评估端粒重复覆盖了该序列的多少。 这是故意灵活的,以允许测序错误和端粒基序的序列/长度变化。 更具体地说,如果前50个核苷酸中至少有50%被端粒重复序列覆盖,则将其称为端粒。 在大多数情况下,默认设置50%(-c /-cutoff)和50 nts(-w /-window)似乎效果很好。 一些端粒可能很短,或者与典型的TTAGGG / CCCTAA基序不同。 使用这些参数,它们很可能会被恢复。 但是,可以
2023-01-10 22:44:53 34KB telomeres Python
1