Usage: /home/chenlianfu/chenlianfu_scripts/blast.pl [options] BLAST_DB file.fasta > out.txt --tmp-prefix default: blast 设置临时文件或文件夹前缀。默认设置下,程序生成command.blast.list,blast.tmp/等临时文件或目录。 --chunk default: 10 设置每个数据块的序列条数。程序会将输入FASTA文件中的序列从前往后分割成多份,每10条相邻的序列分配到一个FASTA文件中;在blast.tmp/临时文件夹下生成次级文件夹,每个文件夹做多放置10个FASTA文件;每个fasta文件写出一条BLAST命令到command.blast.list文件中;然后程序调用ParaFly进行并行化计算。 请注意:若数据块的数量超过100万个,默认设置下blast.tmp/文件夹中的目录数量太多(超过1万个),导致文件系统运行缓慢,ParaFly程序运行效率低下,无法充分利用服务器计算资源。此时推荐设置--chunk参数值为100。 --blast-program default: blastp 设置运行的BLAST命令,支持的命令有:blastn, blastp, blastx, tblastn, tblastx。 --CPU default: 1 设置并行运行的BLAST程序个数。 --blast-threads default: 1 设置BLAST命令的-num_threads参数值。该参数让每个BLAST命令可以多线程运行。 请注意:--blast-threads参数值和--CPU参数值的乘积不要超过服务器的CPU总计算线程数。 --evalue default: 1e-3 设置BLAST命令的-evalue参数值。 --outfmt default: 5 设置BLAST命令的-outfmt参数值。输出方式。若为5,则输出xml格式结果,若为6或7,则输出表格结果。 --max-target-seqs default: 20 设置BLAST命令的-max_target_seqs参数值。该参数设置BLAST最多能匹配数据库中的序列数量。 -clean 若添加该参数,则在运行程序成功后,会删除临时文件或文件夹。
2021-11-02 15:22:32 7KB Perl Bioinfomatics chenlianfu Blast
1
Python生物信息学框架 包含用于DNA分析的python脚本的存储库,特别是: DNA翻译 GC含量计算(比率或百分比) ATCG基本比率函数(组成百分比,基本计数) ##职能: DNA_translation - 返回互补序列 RNA_transcription - 返回 RNA 序列 nucleotate_count-返回特定的基本计数 total_nucleotide_count-返回包含ATCG基本计数值的字典 nucleotide_composition-返回特定碱基百分比组成 total_nucleotide_composition - 返回一个包含 ATCG base % 组成值的字典 GC_content-以百分比或G + C比率返回GC含量 ##说明/设置 下载资源库。 导入 controller.py 以访问函数。 仅使用名称(不要求文件路径,已经由co
2021-09-23 19:09:27 7KB bioinfomatics dna-translation Python
1
基因本体论工具 作者 海宝堂( ) DV( ) 布伦特·佩德森() 菲德尔·拉米雷斯( ) Aurelien Naldi( ) 帕特里克·弗里克( ) 杰夫·尤恩斯( ) 佐藤健太( ) 克里斯·蒙加(Chris ) 格雷格·( ) 戴维·德托马索( ) 奥尔加·( ) 电子邮件 执照 BSD 描述 该软件包包含一个Python库,用于 根据Fisher的精确测试,处理某些GO术语的过高和不足表示。 具有多种多样的校正例程,包括Bonferroni,Sidak,Holm和错误发现率的本地实现例程。 此外,还包括从多个测试校正 :FDR的Benjamini / Hochberg的,FDR的Benjamini / Yekutieli,霍尔姆-Sidak,西门斯-Hochberg指出霍梅尔,FDR 2级的Benjamini-Hochberg的,F
1
Usage: /home/chenlianfu/chenlianfu_scripts/parsing_blast_result.pl [options] blast.out > blast.tab 对BLAST的xml或tab格式的结果进行解析和过滤,得到更准确的BLAST结果。结果为表格形式(BLAST outfmt6),结果按query序列的ID排序,每个query序列的比对结果按得分排序。 --type default: xml 设置输入BLAST结果文件的类型。可以设置为xml或tab两种类型。 若是tab格式,则BLAST结果中没有query与subject的序列长度信息,默认设置下无法使用--subject-coverage和--query-coverage参数的覆盖率阈值对结果进行过滤。在设置--db-subject输入数据库FASTA文件后可以使用--subject-coverage参数进行过滤;在设置--db-query输入query序列FASTA文件后可以使用--query-coverage参数进行过滤。 若是xml格式,结果文件中包含query和subject长度信息,从而不需要使用--db-subject和--db-query参数输入FASTA序列文件。 --no-header 添加该参数则不输出表头。 --max-hit-num default: 20 设置允许的最大hit数量。 --evalue default: 1e-5 设置HSP的evalue阈值。 --identity default: 0.05 设置HSP的identity阈值。 --CIP default: 0.2 设置cumulative identity percentage阈值(这里依然使用了比值,单位不是%,所以其值要设置不大于1,默认值0.2表示20%阈值),对Hit进行过滤。CIP = 所有HSPs的一致位点之和 / 所有HSPs的比对长度之和。 --subject-coverage default: 0.2 设置所有HSPs对subject序列总体的覆盖率阈值。该参数阈值在文献中也被称为CALP(cumulative alignment length percentage),即 sum of all HSPs / subject length。 --db-subject 输入数据库的FASTA文件,以获取subject序列长度信息。 --query-coverage default: 0.2 设置所有HSPs对query序列总体的覆盖率阈值。该参数阈值在文献中也被称为CALP(cumulative alignment length percentage),即 sum of all HSPs / query length。 --db-query 输入query序列的FASTA文件,以获取query序列长度信息。 --percentage-of-top-bitscore default: 100 使用bitscore得分对hit进行过滤,设置输出hits的bitscore得分和最高得分相差不超过最高得分的百分数。hit若有多个HSPs,则取最高的HSP得分作为hit的得分;若数据库非常大,则推荐将设置该参数值设置为10,则能极大减少比对结果,保留最准确的结果;若数据库比较小,则推荐设置该参数值为50,或使用默认值;使用该参数来减少比对结果,优于仅使用最优比对结果。 --HSP-num default: max 若一个hit有多个HSPs,该参数设置输出得分指定数目个最高的HSPs。默认输出所有的HSPs。 --out-hit-confidence 添加该参数,则在表格结果第13、14和15列分别输出Hit的CIP、CALP_query、CALP_subject值。 --suject-annotation 若--type参数的值是xml,添加该参数可以生效,则额外增加最后一列suject annotation注释结果。
2019-10-21 03:16:35 16KB Perl Bioinfomatics chenlianfu Blast
1