注意:“此仓库包含易受攻击的代码,因此无论任何目的均不得将其用于任何目的。” Lambda上的Spark-自述文件 AWS Lambda是一种无服务器的功能即服务,可快速扩展并以100ms的粒度计费。 我们认为,看看能否在Lambda上运行Apache Spark会很有趣。 这是一个有趣的想法,为了进行验证,我们只是将其砍入原型中以查看其是否有效。 我们能够使它在Spark的调度程序和随机播放区域中进行一些更改而起作用。 由于AWS Lambda的最大运行时间限制为5分钟,因此我们必须改组外部存储。 因此,我们修改了Spark代码的混编部分,以对S3等外部存储进行混编。 这是一个原型,未经测
2022-02-07 10:41:00 19.28MB aws lambda big-data spark
1
Databricks推荐的Spark GraphX库的入门学习资料。原书共7章,这里翻译了前4章。后面几章有时间的话可能会继续,可以关注我的blog了解进度,但不保证哈~。昨晚上传了一版后发现保存后的目录乱的很,这是修改过的,重新上传。
2022-01-12 15:21:14 1.78MB Spark Graph GraphX Databricks
1
Apache Spark Kinesis使用者 使用Apache Spark使用AWS Kinesis流化并将数据保存在Amazon Redshift上的示例项目 来自以下内容的代码: 用法示例 您需要在您的环境上设置Amazon Credentials。 export AWS_ACCESS_KEY_ID= " " export AWS_ACCESS_KEY= " " export AWS_SECRET_ACCESS_KEY= " " export AWS_SECRET_KEY= " " 依存关系 必须包含在--packages标志中。 org.apache.spark:spark-streaming-kinesis-asl_2.10:1.6.1 设置 如何在本地运行Kinesis? 几个月前,我使用Kinesalite(amazin项目来模拟Amazon Kinesis)创建了
2022-01-11 11:08:00 24KB python shell aws spark
1
介绍 Apache SPARK 的基本功能了使用
2021-12-15 17:15:25 785KB Apache SPARK
1
Spark时间序列( spark-ts包) 一个Scala / Java / Python库,用于与Apache Spark上的时间序列数据进行交互。 向发布问题和评论,或将其直接通过发送至 。 注意:spark-ts库不再由我(Sandy)积极开发。 不幸的是,我不再有带宽来开发功能,回答邮件列表中的所有问题或解决所有已提交的错误。 就是说,我仍然很乐意审查拉取请求,并尽我所能来帮助其他人推进图书馆。 可在上找到文档。 或者查看 , 或 。 目的是提供 一组用于处理大型时间序列数据集的抽象,类似于为 , 和R的和包中的较小数据集提供的抽象。 可以从统计角度处理时间序列的模型,测试和函数,类似于以及各种Matlab和R软件包中提供的内容。 该库位于其他一些出色的Java和Scala库上。 为NumPy的状,BLAS,能够线性代数。 用于日期和时间。 用于常规数学和统计功
2021-12-15 15:35:36 213KB Scala
1
电影推荐系统 推荐系统(Java,Apache Spark) 在电影镜头1M数据集上使用Apache Spark的交替最小二乘(ALS)算法实施(来自6000名用户的4000个电影的100万评级)实现了协同过滤–模型预测的均方误差(MSE)为0.72,每个用户10条电影推荐。
1
用于分布式TensorFlow,Keras,PyTorch,Apache Spark / Flink和Ray的统一数据分析和AI平台什么是Analytics Zoo? Analytics Zoo提供了一个统一的数据分析和AI平台,可以无缝地使用一个统一的Data Analytics和AI平台,用于Apache Spark / Flink和Ray上的分布式TensorFlow,Keras和PyTorch。什么是Analytics Zoo? Analytics Zoo无缝地将TensorFlow,Keras和PyTorch扩展到分布式大数据(使用Spark,Flink和Ray)。 用于将AI模型(TensorFlow,PyTorch,OpenVINO等)应用到分布式大数据的端到端管道 原生深度学习(TensorFlow / Keras / Py
2021-12-09 22:37:41 45.76MB Python Deep Learning
1
快速测试 一个快速的Apache Spark测试帮助程序库,其中包含格式精美的错误消息! 与 , 和。 将用于PySpark应用程序。 阅读以获得关于测试Spark代码的最佳方法的完整说明! 好的测试套件可以产生易于重构的更高质量的代码库。 安装 从Maven获取JAR文件。 // for Spark 3 libraryDependencies + = " com.github.mrpowers " %% " spark-fast-tests " % " 1.0.0 " % " test " // for Spark 2 libraryDependencies + = " com.github.mrpowers " %% " spark-fast-tests " % " 0.23.0 " % " test " 这是和。 。 您应该将Scala 2.11与Spark 2一起使用,
2021-12-01 16:46:34 203KB spark testing-framework Scala
1
Kyuubi是基于构建的高性能通用JDBC和SQL执行引擎。 Kyuubi的目标是促进用户处理大数据(如普通数据)。 它提供了标准化的JDBC接口,在大数据场景中具有易于使用的数据访问。 最终用户可以专注于开发自己的业务系统并挖掘数据价值,而不必了解底层的大数据平台(计算引擎,存储服务,元数据管理等)。 Kyuubi依靠Apache Spark提供高性能的数据查询功能,并且引擎功能的每一项改进都可以帮助Kyuubi的性能取得质的飞跃。 此外,Kyuubi通过引擎缓存提高了临时响应速度,并通过水平缩放和负载平衡增强了并发性。 它提供了完整的身份验证和身份验证服务,以确保数据和元数据的安全性。 它提供强大的高可用性和负载平衡,以帮助您保证SLA承诺。 它提供了两级弹性资源管理体系结构,可以有效地提高资源利用率,同时满足包括交互,批处理和点查询或全表扫描在内的所有方案的性能和响应要求。 它包
2021-11-23 16:02:17 17.45MB multi-tenant sql spark yarn
1
Apache Spark 2.x for Java Developers,使用Java开发Spark
2021-11-17 11:31:11 7.98MB spark2.X spark
1