BLAST(基本局部比对搜索工具)是一种局部比对算法,具有很高的准确度,被广泛使用。 它可以在保持高精度的同时减少程序的运行时间,但是在比较大型基因数据集时却存在性能瓶颈和低效率。 因此,提出了一种基于Spark的分布式并行方法Spark_BLAST。 该方法利用Spark内存计算来识别和划分任务,并实现了BLAST算法的分布式并行计算。 最后,该方法在5个节点的Spark集群上实现。 与单机比较表明,Spark .cluster的加速可以达到约4,而不会改变比较结果的准确性。 该方法为生物信息学提供了一种有效的比对方法。
2022-11-02 15:55:19 732KB Spark Parallel computing Bioinformatics
1
spark_livy_java_rest_api 在Java中使用REST API在Kerberos和SSL中使用Livy提交Spark作业 mvn exec:java -Dexec.mainClass =“ o9.sparklivy.poc.SparkYarnRestClient” mvn clean编译程序集:单个 java -cp target / spark_livy_api-1.0-SNAPSHOT-jar-with-dependencies.jar o9.sparklivy.poc.SparkYarnRestClient
2022-11-01 22:34:23 32.37MB Python
1
1
2022-11-01 22:07:30 523KB spark
1
scala安装包,虚拟机中进行环境进行搭建
2022-11-01 15:00:32 27.35MB scala spark
1
本文对ClickHouse数据库相关概念、特性、基本原理、安装配置及使用进行了简洁的介绍和阐述,并结合实例对相关概念、知识和技术进行了透彻的说明和讲解,以期各位同学对ClickHouse进行了解,并快速初步掌握使用ClickHouse的基本方法。
2022-10-31 16:03:58 589KB clickhouse 特性 安装 配置
1
Spark ml pipline交叉验证之线性回归 工具开发 //创建回归评估器,用于基于训练集的多次训练后的模型选择 //创建交叉验证器,他会把训练集分成NumFolds份,然后在其中(NumFolds-1)份里进行训练 //在其中一份里进行测试,针对上面的每一组参数都会训练出NumFolds个模型,最后选择一个最优的模型 //对最优的模型做一个模型评估
2022-10-30 13:20:21 218KB Spark ml pipline
1
hadoop集群一键部署脚本
2022-10-28 18:06:17 120KB hadoop spark yarn
1
Windows下配置IDEA的Spark的开发环境 下载Spark-hadoop的文件包,spark-2.4.5-bin-hadoop2.7,官网进行下载http://spark.apache.org/downloads.html IDEA下载Scala语言的开发插件,进行安装重启; 下载scala的包并进行安装,https://www.scala-lang.org/download/all.html,这个网页可以下载所有scala版本 idea创建普通的scala项目(个人使用的是JAVA的maven项目,然后创建子项目为scala项目),创建完子模块项目之后,将spark-2.4.5-bi
2022-10-28 01:16:47 49KB apache ar ark
1
包含3个deb包clickhouse-client_20.5.4.40_all.deb,clickhouse-server_20.5.4.40_all.deb,clickhouse-common-static_20.5.4.40_amd64.deb。安装命令apt-get clickhouse*.deb service clickhouse-server start
2022-10-27 11:03:26 115.18MB clickhouse
1
如今,大量不同格式的异构数据可用于各种应用程序。 其中一个领域是犯罪调查。 在法医调查中,通常需要识别潜在指纹。 这种调查需要有效的计算方法。 随着现有存储技术的技术进步和局限性,需要有效的工具和技术来对庞大的数据集执行大数据分析和计算。 尽管大数据对法医专家来说是一个挑战,但它可以帮助他们检测犯罪模式,这是解决问题和了解现有情况的重要线索。 在本文中,我们使用 Apache Spark 分析了数据集中存在的潜在指纹图像。 这些实验有助于了解如何使用 SparkML 管道读取、处理和分析巨大的图像数据集。 此外,建议在现有框架上使用 Spark 中的深度学习改进识别和特征提取架构,以解决这一重要的研究问题。
2022-10-26 19:21:18 471KB 论文研究
1