Ambari-2.6.2.2 + HDP-2.6.5 (Centos7和Redhat7版本)的网盘下载地址 ,链接失效可私信
2022-05-12 18:11:23 271B HDP hadoop
flume1.9,hive2.3.4,hbase1.4.10,jdk等
2022-05-12 18:11:22 689.23MB hadoop 大数据 big data
1
使用java、spark和flink连接各种数据集和mq
2022-05-12 18:11:19 515KB java spark flink 开发语言
1
包含具体的实现论文、以及具体的实现代码,包含数据采集程序,spark数据分析代码,web数据分析平台代码,以及具体的部署和实现步骤
2022-05-12 18:11:17 21.61MB spark 文档资料 大数据 big
循序渐进学Spark.html.rar
2022-05-11 17:04:41 20.32MB html5
Spark-Alarm 项目简介 提供一些基本的报警手段,并可以通过SparkListener实现对Spark内部执行逻辑进行监控报警 报警模式 使用限制 简介 邮件 通用,无限制 通过 SMTP 协议发送告警 哨兵 网易内部使用 通过 HTTP 协议发送告警 Smilodon 网易内部使用 通过 HTTP 协议发送告警 使用方法 编译 # 克隆本项目 git https://github.com/yaooqinn/spark-alarm.git # cd spark-alarm # mvn clean package 可以得到内置示例项目jar包:streaming-alarmer/target/streaming-alarmer-1.0-SNAPSHOT.jar,该构件实现了对Streaming程序"异常退出"和""任务堆积"等相关关键事件进行简单的告警服务 配置 配置工作分为三个过
2022-05-11 16:34:28 51KB alert spark monitoring monitoring-tool
1
本代码使用mapreduce实现,包含mr操作文件,操作hive,hbase,关系型数据库等等。
2022-05-11 15:34:56 253KB mr mapreduce hadoop
1
相信接触过搜索引擎开发的同学对倒排索引并不陌生,谷歌、百度等搜索引擎都是用的倒排索引,关于倒排索引的有关知识,这里就不再深入讲解,有兴趣的同学到网上了解一下。这篇博文就带着大家一起学习下如何利用Hadoop的MR程序来实现倒排索引的功能。 一、数据准备 1、输入文件数据 这里我们准备三个输入文件,分别如下所示 a.txt hello tom hello jerry hello tom b.txt hello jerry hello jerry tom jerry c.txt hello jerry hello tom 2、最终输出文件数据 最终输出文件的结果为: [pla
2022-05-11 12:25:36 61KB context do hadoop
1
运行saprk-streaming所需的jar包,spark-streaming-kafka-assembly_2.10-1.6.3.jar
2022-05-11 11:37:35 12.73MB spark jar
1
总览 使用AWS EMR,Spark,PySpark,Zeppelin和Airbnb的Superset分析芝加哥市区出租车行程数据集 芝加哥市出租车旅行数据集 步骤1:数据整形/合并 分析原始数据 执行基本转换 重命名列 数据类型变更 添加新列 筛选行 筛选栏 执行基本数据处理并将Spark DataFrame保存为Parquet格式。 以下是所有转换后的Spark DataFrame模式。 root | -- TripID: string (nullable = true) | -- TaxiID: string (nullable = true) | -- TripStartTS:
2022-05-11 09:08:15 941KB spark superset data-visualization pyspark
1