单倍型比较工具 彼得·克鲁斯(Peter Krusche) 这是一组基于的程序,用于根据金标准真相数据集对变体调用进行基准测试。 要将VCF与黄金标准数据集进行比较,请使用以下命令行执行基因型水平单倍型比较。 hap.py truth.vcf query.vcf -f confident.bed -o output_prefix -r reference.fa 我们还有一个脚本,仅根据染色体,位置和等位基因身份进行比较。 该比较将不会解析单倍型,而只会验证在相同位置观察到了相同的等位基因(例如,用于比较体细胞集合)。 som.py truth.vcf query.vcf -f confident.bed -o output_prefix -r reference.fa 可以在下面的“找到更多信息。 内容 系统要求 硬件 Linux OS X 视窗 其他需求 动机 复杂
2022-12-09 01:06:13 122.82MB bioinformatics genomics vcf vcf-comparison
1
chromVAR:染色质跨区域变异(基因组!)
2022-11-12 15:02:06 571KB bioinformatics dnase-seq r atac-seq
1
图6.14 JMarti线路设置 - 157 -
2022-11-04 08:17:11 3.34MB ATP 用户手册
1
VCF与纯文本GWAS存储格式 以纯文本/表格文本和VCF查询GWAS摘要统计信息的运行时性能 引文 Lyon, M.S., Andrews, S.J., Elsworth, B. et al. The variant call format provides efficient and robust storage of GWAS summary statistics. Genome Biol 22, 32 (2021). https://doi.org/10.1186/s13059-020-02248-0 结果 要查看比较结果,请在网络浏览器中打开html文件。 阴谋 工作流程 将GWAS转换为GWAS-VCF 准备查询 对数据进行二次采样,准备多样本GWAS-VCF,并记录预期的输出结果,以便与命令行工具进行比较 RSID查询性能 rsID上的性能查询 单样本-2.5M 单
2022-11-03 21:05:54 7.08MB performance bioinformatics gwas vcf
1
BLAST(基本局部比对搜索工具)是一种局部比对算法,具有很高的准确度,被广泛使用。 它可以在保持高精度的同时减少程序的运行时间,但是在比较大型基因数据集时却存在性能瓶颈和低效率。 因此,提出了一种基于Spark的分布式并行方法Spark_BLAST。 该方法利用Spark内存计算来识别和划分任务,并实现了BLAST算法的分布式并行计算。 最后,该方法在5个节点的Spark集群上实现。 与单机比较表明,Spark .cluster的加速可以达到约4,而不会改变比较结果的准确性。 该方法为生物信息学提供了一种有效的比对方法。
2022-11-02 15:55:19 732KB Spark Parallel computing Bioinformatics
1
《 Python手册中的生物信息学》,第二版 这是Packt发行的代码库。 了解如何使用现代Python生物信息学库和应用程序进行计算生物学的前沿研究 这本书是关于什么的? 生物信息学是一个活跃的研究领域,它使用一系列简单而先进的计算来从生物数据中提取有价值的信息。 本书涵盖了下一代测序,基因组学,宏基因组学,种群遗传学,系统发育学和蛋白质组学。 您将学习现代的编程技术来分析大量的生物学数据。 借助实际示例,您将使用各种Python工具和库来转换,分析和可视化数据集。 本书涵盖以下激动人心的功能: 了解如何处理大型下一代测序(NGS)数据集 使用FASTQ,BAM和VCF格式处理基因组数据集 学习进行序列比较和系统发育重建 使用Protemics数据执行复杂的分析 使用Python与Galaxy服务器进行交互 如果您觉得这本书适合您,请立即获取! 说明和导航 所有代码都组织在文件
2022-10-20 14:46:49 12.5MB OpenEdgeABL
1
用python编写生物信息学中的程序,生物信息学的同学可以看看,个人感觉还是不错
2022-09-27 10:08:02 6.83MB python 生物信息
1
入门 git clone https://github.com/lh3/kmer-cnt cd kmer-cnt make # C++11 required to compile the two C++ implementations wget https://github.com/lh3/kmer-cnt/releases/download/v0.1/M_abscessus_HiSeq_10M.fa.gz ./yak-count M_abscessus_HiSeq_10M.fa.gz > kc-c4.out 介绍 K-mer计数是许多作图者,组装者和其他工具(例如基因分型仪,宏基因组学分析仪等)的基础。 它是生物信息学中最重要的算法类别之一。 在这里,我们将实现基本的k-mer计数算法,但具有高级工程技巧。 我们将看到更好的工程技术可以走多远。 在此仓库中,每个{kc,yak}-*.
2022-05-21 16:51:08 47KB bioinformatics genomics k-mer-counting C++
1
平衡计分卡2 BCALM 2是一种生物信息学工具,用于根据测序数据构建压缩的de Bruijn图。 该存储库是BCALM软件的新并行版本。 它使用的是新算法,并使用库实现。 BCALM(版本1)的原始单线程代码仍可在以下位置获得: : 用法 阅读下面的说明进行编译,然后: ./bcalm -in [reads.fa] -kmer-size [kmer_size] -abundance-min [abundance_threshold] 例如 ./bcalm -in reads.fastq -kmer-size 21 -abundance-min 2 重要参数为: -kmer-size [int] k-mer大小,即de Bruijn图的节点长度。 -abundance-min [int] 设置阈值X,在此阈值以下,滤除(严格地)在数据集中少于X次的k-mers; 即通常
2022-05-21 09:48:35 142KB bioinformatics graph debruijn unitigs
1
cpup 将samtools mpileup结果转换为基本计数tsv 支持多个bam文件 如果不与标签( -t AD , -t ADF , -t ADR )混淆,则bcftools mpileup可能是一个更好的选择。 samtools mpileup可以按以下格式逐站点汇总映射结果。 第5列(第8列,第11列,第14列...)报告了每个站点中观察到的碱基。 XII 455422 C 16 <<<<<<<<<<<<<<,, FFFFFFFFFFFFFFFF 4 <<,, FFFF XII 455423 T 16 <<<<<<<<<<<<<<,, FFFFFFFFFFFFFFFF 4 <<,, FFFF XII 455424 C 17 <<<<<<<<<<<<<<,,^$, FFFFFFFFFFFFFFFFE 4 <<,, FFFF XII 455425 A 18 <<<<<<<<<
2022-05-12 19:08:26 378KB bioinformatics mutations samtools snp-genotyping
1