《深入理解Spark核心思想与源码分析》讲解了spark基本内容及源码分析
2021-06-24 16:51:28 40.77MB 大数据 spark 源码
1
姚琴 | 《Kyuubi:开源企业级Serverless Spark框架》@网易数帆技术沙龙 议题:网易集团每日有数十万 Spark 类型的任务,这给服务端的运维及调优带来了巨大挑战。为支持业务避开底层技术和框架选型,直接享受到前沿技术,网易数帆开发了企业级 Serverless Spark 和数据湖探索框架Kyuubi,并将其开源。 嘉宾:姚琴,网易数帆大数据专家,Apache Spark Committer / Apache Submarine Committer。
2021-06-24 14:05:51 4.75MB 大数据 Spark Kyuubi 开源
1
徐铖 | 《利用Intel Optane PMEM技术加速大数据分析》 议题介绍:分享如何使用Intel开源项目Optimized Analytics Package (OAP)加速Spark、Flink的性能,介绍现有Spark框架在内存管理、Shuffle实现等层面性能有进一步提升的空间,以及如何更好利用新硬件,比如利用Intel Optane PMEM(持久化内存)技术上,Spark有诸多进一步优化的功能点。 嘉宾简介:徐铖,Intel资深软件开发工程经理,现供职于Intel上海研发有限公司,现主要专注于大数据领域中基于英特尔平台技术进行优化。在这之前从事过Intel Hadoop发行版的核心开发以及相应大数据领域的社区工作,是Apache Commons/ORC/Hive的Committer也是Spark的Contributor,同时也是《持久内存架构与工程实践》的作者之一。
2021-06-24 14:05:50 2.32MB 大数据 spark Flink OptanePMEM
1
AutoAlgorithm.zip
2021-06-23 13:05:24 8.29MB spark
1
包含了Spark的一系列的小案例,包含core,sql,stream等案例
2021-06-23 12:53:41 63KB spark core sql stream
1
基于Spark的电影推荐系统,包含爬虫项目、web网站、后台管理系统以及spark推荐系统
2021-06-23 10:26:12 58.94MB 推荐系统
1
spark Mllib 协同过滤测试数据
2021-06-23 10:16:42 14KB spark Mllib 协同过滤
1
-_11.11_storm-spark-hadoop hadoop_storm_spark结合实验的例子,模拟淘宝双11节,根据订单详细信息,汇总出总销售量,各个省份销售排行,以及后期SQL分析,数据分析,数据挖掘等。 --------大概流程------- 第一阶段(storm实时报表) (1)用户订单入kafka队列, (2)经过storm,实时计算出总销售量,和各个省份的的销售量, (3)将计算结果保存到hbase数据库中。 第二阶段(离线报表) (1)用户订单入oracle数据库, (2)通过sqoop把数据导入hadoop上。 (3)使用mr和rdd对hadoop上的原始订单做etl清洗 (4)建立hive表和sparkSQL内存表。为后期分析做基础 (5)使用HQL实现业务指标分析,和用户画像分析,将结果存在mysql中。供web前台使用 第三阶段(大规模订单即席查询,和多维度
2021-06-22 15:04:33 26KB Java
1
spark期末复习题总结
2021-06-21 14:15:06 21KB spark apache spark
1
Spark资料 SparkKryo.zip spark-core.zip
2021-06-21 14:02:19 680KB spark
1