Streaming_benchmark 流基准测试旨在测量流处理系统(如flink和spark)的性能。 模拟了三个用例(用户访问会话分析,实时广告评估和购物记录分析)。 原始数据将生成并存储在Kafka中。 流映射到流表中,并且对这些表进行查询。 建造 mvn clean package 先决条件 您应该在集群中安装Apache Kafka,Apache zookeeper,Apache Spark和Blink。 设置 将项目克隆到您的母版中。 更新conf / benchmarkConf.yaml(Kafka,Zookeeper,基准测试的属性...) streambench.zkHost ip1:2181,ip2:2181,ip3:2181... streambench.kafka.brokerList ip
2022-03-24 23:45:30 59KB Java
1
在构建大数据开发平台的过程中,想用Python对大数据进行开发,从spark官网下载速度太慢,耗费好久才下载下来,在这里与大家共享。
2022-03-23 21:48:32 175.81MB Spark 大数据 hadoop pyspark
1
活动识别 使用智能手机和智能手表数据使用Apache Spark和H20预测活动。 可以预测的活动示例包括: 坐着 步行 吃 打字 常设 运球篮球等... 使用SparkML和H20在Apache Spark分析中完成数据预处理 数据集 “ WISDM智能手机和Smartwatch活动和生物识别数据集” 原始时间序列传感器数据 描述的数据集说明 **项目中采取的步骤如下:** 1)特征提取 提取用于预测上述活动的功能: subject_id 是SmartPhone还是SmartWatch数据? 设备类型:加速度计和/或陀螺仪 时间戳记 x,y和z坐标提取标签: 代表每个活动的活动代码 将所有这些信息组织到spark RDD中,然后组织到Spark DataFrame中 编码 2)数据预处理 对于每个活动,包括以下所有百分比读数: x,y,z坐标 按时间戳排序 还包括来自下一
2022-03-23 09:03:11 527KB Python
1
windows版scala-2.11.12.zip,自己配置一下环境变量就可使用
2022-03-22 13:28:12 27.82MB scala spark windows
1
Spark自带案例、代码案例测试! 环境: Hadoop1.2集群和Spark1.0集群 3个节点的Ubuntu12.1系统机器
2022-03-20 22:21:41 608KB Spark案例
1
spark-2.4.0-bin-hadoop2.7
2022-03-18 15:09:35 217.34MB spark
1
大型java电商项目源码 超越 Piwik 网络分析 将来自 Piwik Analytics 的客户参与数据转化为可操作的业务洞察。 在本项目中,我们将说明 Apache Spark 不仅是用于大规模数据处理的快速通用引擎,而且还是集成现有数据源并通过复杂的机器学习、挖掘和预测算法使其数据适用的适当手段。 作为特定的数据源,我们选择了 ,它是一个广泛使用的网络分析开源平台,也是购物篮分析、用户行为分析等的合适起点。 从 Piwik 是领先的开源网络分析平台,可让您深入了解网站访问者、营销活动等,从而优化访问者的策略和在线体验。 将 Piwik Analytics 与 Piwik 集成,可以通过关联分析、意图识别、建议和系列分析等评估来自 Piwik 的客户参与数据,以深入了解远远超出传统网络分析的客户参与数据。 历史参与数据 集成基于 Piwik 的 MySQL 数据库。 下面几行 Scale 代码显示了如何访问 Piwik 的 MySQL 数据库中保存的客户参与数据。 连接器需要相应的数据库位置、名称和用户凭据。 通过指定 Piwik 支持的某个网站的唯一标识符idsite和特定查询
2022-03-16 19:40:20 639KB 系统开源
1
用于测试spark集群性能的一种benchmark版本,由中科院计算所开发。
2022-03-15 21:09:03 41.31MB BigDataBench Spark
1
spark-2.4.6-bin-hadoop2.6.tgz 官网下载不了的,可以这里下载哦,csdn很稳定哦
2022-03-14 22:07:13 220.43MB spark
1