在DigitalOcean上使用Docker Swarm运行Spark 想学习如何构建它吗? 查看。 要使用这个项目吗? 货叉/克隆 Digital Ocean并访问令牌 将令牌添加到您的环境中: $ export DIGITAL_OCEAN_ACCESS_TOKEN=[your_token] 启动三个Droplet并部署Docker Swarm: $ sh scripts/create.sh 运行脚本: $ sh scripts/run.sh 减少资源: $ sh scripts/destroy.sh
2022-05-21 22:53:33 5KB docker spark apache-spark docker-swarm
1
dlsa分布式最小二乘近似 使用Apache Spark实施 介绍 在这项工作中,我们开发了一种分布式最小二乘近似(DLSA)方法,该方法能够解决分布式系统上的大量回归问题(例如,线性回归,逻辑回归和Cox模型)。 通过使用局部二次形式逼近局部目标函数,我们可以通过对局部估计量进行加权平均来获得组合估计量。 在统计上证明了所得的估计器与全局估计器一样有效。 而且,它只需要一轮通信。 我们使用自适应套索方法进一步基于DLSA估计进行收缩估计。 通过在主节点上使用LARS算法,可以轻松获得该解决方案。 从理论上讲,通过使用新设计的分布式贝叶斯信息准则(DBIC),得出的估计量具有oracle属性,并且选择一致。 广泛的数值研究和航空公司数据集进一步说明了有限的样本性能和计算效率。 整个方法已在的Spark系统中实现。 R软件包dlsa提供了上可用的概念演示。 系统要求 Spark >= 2
2022-05-16 20:25:16 105KB spark distributed-computing pyspark spark-ml
1
Spark-Alarm 项目简介 提供一些基本的报警手段,并可以通过SparkListener实现对Spark内部执行逻辑进行监控报警 报警模式 使用限制 简介 邮件 通用,无限制 通过 SMTP 协议发送告警 哨兵 网易内部使用 通过 HTTP 协议发送告警 Smilodon 网易内部使用 通过 HTTP 协议发送告警 使用方法 编译 # 克隆本项目 git https://github.com/yaooqinn/spark-alarm.git # cd spark-alarm # mvn clean package 可以得到内置示例项目jar包:streaming-alarmer/target/streaming-alarmer-1.0-SNAPSHOT.jar,该构件实现了对Streaming程序"异常退出"和""任务堆积"等相关关键事件进行简单的告警服务 配置 配置工作分为三个过
2022-05-11 16:34:28 51KB alert spark monitoring monitoring-tool
1
Apache Spark 基准测试 该项目是硕士论文的成果,旨在成为 Apache Spark 框架的测试平台。 其基本思想是能够在软件和硬件的不同环境中运行该框架,以查看其行为,并将获得的结果与类似的解决方案(如 Hive、Redshift 等)进行比较。 这项工作基于伯克利大学 ( ) 进行的大数据基准测试。 本质上,执行的测试是相似的,只是它们是使用 Apache Spark Java API 完成的,并且还测试了一些额外的配置。 此外,该基准测试不仅可以在 Amazon EC2 上运行,还可以在云和本地的任何集群中运行。 项目执行 项目设置 下面列出并简要说明了项目的一般配置参数。 全局配置属性。 这些配置参数是通用的,会影响项目中开发的所有测试。 apache.benchmark.config.global.master :我们想要运行基准的模式。 如果我们想要在本地执行
2022-04-15 12:15:20 82KB Java
1
音乐推荐系统 一种音乐推荐系统,可根据用户的收听历史向他们推荐新的音乐艺术家。 交替最小二乘(ALS)学习算法用于底层后端实现。 该系统已针对来自音乐流开放源代码服务Audioscrobbler的数据进行了培训和测试。
2022-04-11 21:00:29 726KB 系统开源
1
为 Apache Spark 训练的 Word2Vec 使用 UMBC Webbase 语料库 [1] 作为训练数据,基于 Apache Spark 实用程序训练 Word2Vec 100 维单词相似度向量的简单项目。 目前存在 3 种大小的向量: XS:在 10% 的网络语料库上训练 S : 在 25% 的网络语料库上训练 M:在 50% 的 webbase 语料库上训练 所使用的预处理可以分为两个不同的组。 对于这两个组,webbase 语料库的一段被视为单个文档 Unstemed 标记化预处理:简单地使用斯坦福核心 NLP 标记器 [2] 来标记给定的文本 词干标记化处理:使用与上述相同的标记化。 但是使用在 apache lucene 中实现的 porter stemmer 来阻止令牌 [3] 此外,还集成了余弦相似度方法以计算两个给定词向量之间的相似度。 用法参见用法部分
2022-03-25 16:44:27 2.93MB Scala
1
活动识别 使用智能手机和智能手表数据使用Apache Spark和H20预测活动。 可以预测的活动示例包括: 坐着 步行 吃 打字 常设 运球篮球等... 使用SparkML和H20在Apache Spark分析中完成数据预处理 数据集 “ WISDM智能手机和Smartwatch活动和生物识别数据集” 原始时间序列传感器数据 描述的数据集说明 **项目中采取的步骤如下:** 1)特征提取 提取用于预测上述活动的功能: subject_id 是SmartPhone还是SmartWatch数据? 设备类型:加速度计和/或陀螺仪 时间戳记 x,y和z坐标提取标签: 代表每个活动的活动代码 将所有这些信息组织到spark RDD中,然后组织到Spark DataFrame中 编码 2)数据预处理 对于每个活动,包括以下所有百分比读数: x,y,z坐标 按时间戳排序 还包括来自下一
2022-03-23 09:03:11 527KB Python
1
BigDL: 一个用于Apache Spark的分布式深度学习库 BigDL:Apache Spark 上的分布式深度学习 什么是 BigDL? BigDL 是 Apache Spark 的分布式深度学习库; 使用 BigDL,用户可以将他们的深度学习应用程序编写为标准 Spark 程序,这些程序可以直接在现有 Spark 或 Hadoop 集群上运行。 为了轻松构建 Spark 和 BigDL 应用程序,为端到端分析 + AI 管道提供了高级 Analytics Zoo。 丰富的深度学习支持。 BigDL 以 Torch 为模型,为深度学习提供全面支持,包括数值计算(通过 Tensor)和高级神经网络; 此外,用户可以使用 BigDL 将预训练的 Caffe 或 Torch 模型加载到 Spark 程序中。 极高的性能。 为了实现高性能,BigDL 在每个 Spark 任务中使用英特尔 MKL/英特尔 MKL-DNN 和多线程编程。 因此,它比单节点 Xeon 上的开箱即用开源 Caffe、Torch 或 TensorFlow 快几个数量级(即与主流 GPU 相当)
2022-03-04 10:26:48 11.08MB 机器学习
1
spark-tpc-ds-performance-test:使用TPC-DS基准测试Spark SQL性能
1
预凝胶最短路径 Pregel 系统的最短路径算法。 使用 Apache Spark 和 GraphX API 实现。 Scala
2022-02-11 19:31:56 9KB Scala
1