EBay开源出来的apache griffin是一款数据质量检测工具,结合Livy、spark、hive、hdfs去使用的。但是开源的代码质量有些差,而且报错日志不友好,楼主踩了很多坑才部署好,实测可用,特将文档记录下来分享给大家。这个文档中包含了操作系统+Livy+HDFS的配置与集成
2021-07-01 18:07:41 975KB griffin 数据质量 大数据 spark
1
《深入理解Spark核心思想与源码分析》讲解了spark基本内容及源码分析
2021-06-24 16:51:28 40.77MB 大数据 spark 源码
1
姚琴 | 《Kyuubi:开源企业级Serverless Spark框架》@网易数帆技术沙龙 议题:网易集团每日有数十万 Spark 类型的任务,这给服务端的运维及调优带来了巨大挑战。为支持业务避开底层技术和框架选型,直接享受到前沿技术,网易数帆开发了企业级 Serverless Spark 和数据湖探索框架Kyuubi,并将其开源。 嘉宾:姚琴,网易数帆大数据专家,Apache Spark Committer / Apache Submarine Committer。
2021-06-24 14:05:51 4.75MB 大数据 Spark Kyuubi 开源
1
徐铖 | 《利用Intel Optane PMEM技术加速大数据分析》 议题介绍:分享如何使用Intel开源项目Optimized Analytics Package (OAP)加速Spark、Flink的性能,介绍现有Spark框架在内存管理、Shuffle实现等层面性能有进一步提升的空间,以及如何更好利用新硬件,比如利用Intel Optane PMEM(持久化内存)技术上,Spark有诸多进一步优化的功能点。 嘉宾简介:徐铖,Intel资深软件开发工程经理,现供职于Intel上海研发有限公司,现主要专注于大数据领域中基于英特尔平台技术进行优化。在这之前从事过Intel Hadoop发行版的核心开发以及相应大数据领域的社区工作,是Apache Commons/ORC/Hive的Committer也是Spark的Contributor,同时也是《持久内存架构与工程实践》的作者之一。
2021-06-24 14:05:50 2.32MB 大数据 spark Flink OptanePMEM
1
大数据-spark-分析可视化自动推荐系统,用于学习大数据,有一系列的流程分析以及实现代码,最新的jar版本
2021-06-17 13:22:10 80B spark scala 大数据 爬虫
1
该资源总共包括23份学习资料,从Spark入门到底层实现都有包含,还有对Spark的架构以及内核的解析,同时还有Spark的实战,Spark集群的构建和Spark的相关编程实现
2021-06-15 13:07:17 152.86MB 大数据 spark 学习资料 必读书目
高性能高扩展的千亿级实时数据仓库全实现(通用企业级解决方案),完整版178讲,提供源码和课件下载!本课程凝聚讲师多年一线大数据企业实际项目经验,大数据企业在职架构师亲自授课,全程实操代码,带你体验真实的大数据开发过程,代码现场调试。通过本课程的学习再加上老师的答疑,你完全可以将本案例直接应用于企业
2021-06-10 19:04:51 810B flink 大数据 spark
1
熟悉Spark的RDD基本操作及键值对操作; 熟悉使用RDD编程解决实际具体问题的方法
2021-06-08 18:07:49 7KB 大数据 spark
1
该文档包含大数据面试题和简历模板以及部分项目经验
2021-06-08 14:06:29 76B 大数据 spark
上百节课详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 一、课程目标 熟练掌握SparkSQL的各种操作,深入了解Spark内部实现原理 深入了解SparkML机器学习各种算法模型的构建和运行 熟练Spark的API并能灵活运用 能掌握Spark在工作当中的运用 二、适合人群 适合给,有java,scala基础,想往大数据spark机器学习这块发展 适合给想学习spark,往数据仓库,大数据挖掘机器学习,方向发展的学员
2021-05-30 14:06:25 233B 大数据 spark sparkSQL sparkML