上传者: 42121754
|
上传时间: 2021-11-08 10:49:48
|
文件大小: 14KB
|
文件类型: -
使用Python分析Multi-Fasta格式的DNA序列
一个Python程序,将包含多FASTA格式的DNA序列的文件作为输入,并计算以下问题的答案:
文件中有几条记录? FASTA文件中的记录定义为单行标题,后跟序列数据行。 在第一列中,标题行与序列数据之间用大于号(“>”)隔开。 “>”符号后的单词是序列的标识符,该行的其余部分是该条目的可选描述。 “>”和标识符的首字母之间不应有空格。
文件中序列的长度是多少? 最长的序列是什么,最短的序列是什么? 是否有一个以上的最长或最短序列? 它们的标识符是什么?
FASTA格式
FASTA格式的序列文件可以包含多个序列。 FASTA格式的每个序列均以单行描述开头,后跟序列数据行。 广告内容描述行必须在第一列中以大于(“>”)符号开头。
FASTA格式的示例序列为:
AB000263 | ACC = AB000263 | DESCR