上传者: abccnfh
|
上传时间: 2019-10-21 03:16:35
|
文件大小: 16KB
|
文件类型: PL
Usage:
/home/chenlianfu/chenlianfu_scripts/parsing_blast_result.pl [options] blast.out > blast.tab
对BLAST的xml或tab格式的结果进行解析和过滤,得到更准确的BLAST结果。结果为表格形式(BLAST outfmt6),结果按query序列的ID排序,每个query序列的比对结果按得分排序。
--type default: xml
设置输入BLAST结果文件的类型。可以设置为xml或tab两种类型。
若是tab格式,则BLAST结果中没有query与subject的序列长度信息,默认设置下无法使用--subject-coverage和--query-coverage参数的覆盖率阈值对结果进行过滤。在设置--db-subject输入数据库FASTA文件后可以使用--subject-coverage参数进行过滤;在设置--db-query输入query序列FASTA文件后可以使用--query-coverage参数进行过滤。
若是xml格式,结果文件中包含query和subject长度信息,从而不需要使用--db-subject和--db-query参数输入FASTA序列文件。
--no-header
添加该参数则不输出表头。
--max-hit-num default: 20
设置允许的最大hit数量。
--evalue default: 1e-5
设置HSP的evalue阈值。
--identity default: 0.05
设置HSP的identity阈值。
--CIP default: 0.2
设置cumulative identity percentage阈值(这里依然使用了比值,单位不是%,所以其值要设置不大于1,默认值0.2表示20%阈值),对Hit进行过滤。CIP = 所有HSPs的一致位点之和 / 所有HSPs的比对长度之和。
--subject-coverage default: 0.2
设置所有HSPs对subject序列总体的覆盖率阈值。该参数阈值在文献中也被称为CALP(cumulative alignment length percentage),即 sum of all HSPs / subject length。
--db-subject
输入数据库的FASTA文件,以获取subject序列长度信息。
--query-coverage default: 0.2
设置所有HSPs对query序列总体的覆盖率阈值。该参数阈值在文献中也被称为CALP(cumulative alignment length percentage),即 sum of all HSPs / query length。
--db-query
输入query序列的FASTA文件,以获取query序列长度信息。
--percentage-of-top-bitscore default: 100
使用bitscore得分对hit进行过滤,设置输出hits的bitscore得分和最高得分相差不超过最高得分的百分数。hit若有多个HSPs,则取最高的HSP得分作为hit的得分;若数据库非常大,则推荐将设置该参数值设置为10,则能极大减少比对结果,保留最准确的结果;若数据库比较小,则推荐设置该参数值为50,或使用默认值;使用该参数来减少比对结果,优于仅使用最优比对结果。
--HSP-num default: max
若一个hit有多个HSPs,该参数设置输出得分指定数目个最高的HSPs。默认输出所有的HSPs。
--out-hit-confidence
添加该参数,则在表格结果第13、14和15列分别输出Hit的CIP、CALP_query、CALP_subject值。
--suject-annotation
若--type参数的值是xml,添加该参数可以生效,则额外增加最后一列suject annotation注释结果。