这个脚本做什么? 这是用于在FASTA文件中查找端粒重复序列(TTAGGG / CCCTAA)的工具。 该脚本不做什么? 它只会在序列的开头和结尾寻找端粒。 它仅查找TTAGGG / CCCTAA重复序列的变体。 它是如何做到的? 它以FASTA文件作为输入,并逐一遍历其中的序列。 在每个序列的开头和结尾,它都会忽略N(未知碱基)。 对于每个序列,它将查看前(最后)50个核苷酸,并评估端粒重复覆盖了该序列的多少。 这是故意灵活的,以允许测序错误和端粒基序的序列/长度变化。 更具体地说,如果前50个核苷酸中至少有50%被端粒重复序列覆盖,则将其称为端粒。 在大多数情况下,默认设置50%(-c /-cutoff)和50 nts(-w /-window)似乎效果很好。 一些端粒可能很短,或者与典型的TTAGGG / CCCTAA基序不同。 使用这些参数,它们很可能会被恢复。 但是,可以
2023-01-10 22:44:53 34KB telomeres Python
1
克拉克·范·史丹顿(Clarke van Steenderen) 动物学与昆虫学系南非东开普省Makhanda(Grahamstown)的Rhodes University 2021年电子邮件: :pencil: 功能性 SPEDE-SAMPLER是用Python和R编写的GUI程序,用于使用GMCY方法评估采样对物种划界的影响。 该程序提供以下内容: 读取对齐的Fasta文件,并随机选择n次序列p次。 这些文件保存在输出文件夹中。 例如,可以上传十个COI序列的序列比对。 用户可能希望随机选择该数据集的50%而不进行替换,并将此过程重复15次。 因此,该程序会将15个Fasta文件写到一个文件夹中,其中每个文件包含五个序列的随机选择。 循环遍历输出文件夹,以为每个重新采样的Fasta文件产生最大似然(ML)系统发育。 有两种ML程序可用:FastTree和RAxML。 循环遍历每个ML系统
2022-12-26 14:26:36 949KB Python
1
fasta算法,Smith-waterman算法,编辑距离算法,最长公共子串算法
2022-12-16 18:25:34 209KB fasta,SW
1
利用生物质谱仪器进行蛋白鉴定和定量分析时,往往要获得一个蛋白的理论酶切肽段,该程序提供了一个对蛋白进行胰酶切的程序,规则(R、K切,RP、KP不切)。程序需要输入一个FASTA格式的蛋白序列文件(压缩包中是文件InternalStandards.fasta),输出文件可以自己设定,必须保证有输入和输出文件,程序才能运行。另外,程序还提供漏切次数和肽段长度选项
2022-06-13 10:16:22 3.55MB FASTA格式 、理论酶切(K.R)
1
gb2fasta:Perl脚本,用于将GenBank记录转换为FASTA格式
2022-05-09 14:44:18 14KB perl genbank fasta PerlPerl
1
FIST快速迭代收缩最经典的文献,目前最流行的优化算法之一,这是快速迭代收缩算法FASTA 的matlab源代码,可直接运行,非常适合初学者
2022-04-14 09:40:19 40KB FASTA源代码
1
GffRead GFF / GTF实用程序提供格式转换,过滤,FASTA序列提取等功能。 更多详细信息和用法示例可在找到,该文件也可用于引用此软件。 可在此处在线找到带有此实用程序下载包的官方网页: : 使用gffread -h查看命令行用法选项。 安装 从源代码构建此程序需要源代码库。 如果未找到../gclib目录,则make命令应自动从存储库中获取最新的gclib版本。 cd /some/build/dir git clone https://github.com/gpertea/gffread cd gffread make release 这应该在当前目录中创建gffread二进制文件。
2022-03-10 20:57:11 397KB C++
1
JFASTA是用于处理FASTA文件的轻量级框架。 它支持读取,写入和解析单个或多个FASTA文件。 文件可以一次读取/写入,也可以基于流读取(内存效率高)。 它稳定,非常直观,并且可以与Java 1.5 SDK及更高版本很好地集成在一起。
2022-02-24 10:05:36 210KB 开源软件
1
pyfaidx, 高效的Pythonic 随机访问fasta子序列 描述Samtools为indexed提供了一个函数"faidx"( FASTA索引),它创建一个小平面索引文件,允许快速随机访问索引FASTA文件,同时加载文件中的最小文件数量。 这个 python MODU
2021-12-05 16:43:41 103KB 开源
1