Apache Spark 设计与实现
2021-11-06 11:57:34 8.5MB Apache Spark
1
spark-twitter-stream-example:使用Apache Spark和Apache Bahir在实时Twitter提要上进行的“情感分析”
2021-10-30 15:30:52 32KB streaming twitter spark TwitterScala
1
使用 Spark 进行响应式 Web 日志挖掘 Web 日志分析基于符合 W3C Web 服务器日志格式的日志文件。 IIS 是支持这种格式的主要候选者。 挖掘功能本身不限于这种格式,可以通过更改配置参数轻松适应其他日志文件。 此处使用 Web Log Mining 来提取常见的 Web 分析参数。 项目将与 Spark 集成在一起,例如使用马尔可夫模型预测客户参与事件的购买范围。 这些模型还可以应用于来自 W3C 网络服务器日志的数据,以预测有价值的参数。 Web日志微服务 该项目实现了基于 Akka Remoting 的微服务,因此可以轻松集成到任何基于 Akka 的松耦合环境中。 这种架构方法为分布式数据处理系统带来了 Spark 的强大功能。 Akka 是一个使用构建并发可扩展应用程序的工具包。 Akka 带有一个称为Akka Remoting的功能,它可以轻松地以对等方式
2021-10-30 10:20:30 114KB Scala
1
用于Apache Spark / Flink和Ray上的分布式TensorFlow,Keras和PyTorch的统一数据分析和AI平台 什么是Analytics Zoo? Analytics Zoo无缝地将TensorFlow,Keras和PyTorch扩展到分布式大数据(使用Spark,Flink和Ray)。 用于将AI模型(TensorFlow,PyTorch,OpenVINO等)应用于分布式大数据的端到端管道 使用Spark代码内联编写或以进行分布式训练和推理。 管道中的本机深度学习(TensorFlow / Keras / PyTorch / BigDL)支持。 通过RayOn
2021-10-12 16:22:57 43.62MB python scala apache-spark pytorch
1
apache-hive-2.2.0-bin.tar.gz apache-hive-2.2.0-bin.tar.gz
2021-10-07 20:06:25 208.08MB hive hadoop apache spark
1
整体系统架构和软件栈,怎样利用和改进Spark来形成最终方案。 如何搭建快速强大的特征衍生,选择和转化流程(Pipeline)。我们会在细节方面展示真实数据所带来的挑战和我们开发的采样,填充,缩放和其他领域专用的特征转换模块。我们正在将其中的许多内容贡献给Spark社区。 深入分析我们使用的算法怎样解决数据的不平衡性及与其他算法的对比结果。 在实现过程中累积的其他开发经验
2021-09-28 14:16:33 1.31MB Spark
1
火花GPU 该项目的目的是研究GPU加速带来的性能提升。 评估了一些应用程序,即WordCount,KMeans-Clustering和浮点排序。 此外,还为Spark的弹性分布式数据集(RDD)实现了许多GPU兼容功能。 纸 论文提交的详细信息即将发布。 执照 根据Apache软件许可2.0获得许可。 看 文件。
2021-09-12 18:53:30 417KB Python
1
In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.
2021-08-25 09:26:58 12.3MB Spark Delta Koalas iteblog
1
基于 Apache Spark的大规模分布式机器学习实践 漏洞分析 移动安全 企业安全 APT 业务风控
2021-08-23 14:00:27 3.09MB 安全 系统安全 企业安全 网络信息安全
BigCLAM-ApacheSpark:使用基于Apache Spark的BigCLAM模型在大型网络中进行社区检测重叠
2021-08-19 11:03:31 32.51MB machine-learning scala latex spark
1