spark_demo_pagerank 演示
2021-06-18 21:36:03 11KB Shell
1
目录 一:为什么sparkSQL? 3 1.1:sparkSQL的发展历程 3 1.1.1:hive and shark 3 1.1.2:Shark和sparkSQL 4 1.2:sparkSQL的性能 5 1.2.1:内存列存储(In-Memory Columnar Storage) 6 1.2.2:字节码生成技术(bytecode generation,即CG) 6 1.2.3:scala代码优化 7 二:sparkSQL运行架构 8 2.1:Tree和Rule 9 2.1.1:Tree 10 2.1.2:Rule 10 2.2:sqlContext的运行过程 12 2.3:hiveContext的运行过程 14 2.4:catalyst优化器 16 三:sparkSQL组件之解析 17 3.1:LogicalPlan 18 3.2:SqlParser 20 3.1.1:解析过程 20 3.1.2:SqlParser 22 3.1.3:SqlLexical 25 3.1.4:query 26 3.3:Analyzer 26 3.4:Optimizer 28 3.5:SpankPlan 30 四:深入了解sparkSQL运行计划 30 4.1:hive/console安装 30 4.1.1:安装hive/cosole 30 4.1.2:hive/console原理 31 4.2:常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3:不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4:不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5:查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五:测试环境之搭建 40 5.1:虚拟集群的搭建(hadoop1、hadoop2、hadoop3) 41 5.1.1:hadoop2.2.0集群搭建 41 5.1.2:MySQL的安装 41 5.1.3:hive的安装 41 5.1.4:Spark1.1.0 Standalone集群搭建 42 5.2:客户端的搭建 42 5.3:文件数据准备工作 42 5.4:hive数据准备工作 43 六:sparkSQL之基础应用 43 6.1:sqlContext基础应用 44 6.1.1:RDD 44 6.1.2:parquet文件 46 6.1.3:json文件 46 6.2:hiveContext基础应用 47 6.3:混合使用 49 6.4:缓存之使用 50 6.5:DSL之使用 51 6.6:Tips 51 七:ThriftServer和CLI 51 7.1:令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2:ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3:小结 56 八:sparkSQL之综合应用 57 8.1:店铺分类 57 8.2:PageRank 59 8.3:小结 61 九:sparkSQL之调优 61 9.1:并行性 62 9.2: 高效的数据格式 62 9.3:内存的使用 63 9.4:合适的Task 64 9.5:其他的一些建议 64 十:总结 64
2021-06-18 21:28:38 5.15MB Spark SparkSql
1
本资源来源于万方,属于学术论文,包括几篇硕士论文,几篇期刊论文。结合自然语言处理和推荐系统的,还有日志处理的。侵删。
2021-06-18 12:18:49 29MB spark stream NLP
1
大数据-spark-分析可视化自动推荐系统,用于学习大数据,有一系列的流程分析以及实现代码,最新的jar版本
2021-06-17 13:22:10 80B spark scala 大数据 爬虫
1
Spark基于map reduce算法实现的分布式计算 hadoop体系中的一个重要组件
2021-06-16 17:33:29 4.46MB spark
1
1.基于Spark开发的平台 2.需要有spark基础 3.有很多高级知识和设计模式 4.电商用户行为分析大数据平台(项目名称) 5.访问行为,购物行为,广告点击行为,对这些行为进行分析,使用大数据技术来帮助公司提升业绩。 6.主要的功能模块有用户session分析,页面单跳转化率统计,热门商品离线统计,广告流量实时统计等4个业务模块。 7.所使用的知识点是spark core,spark SQL,spark streaming等三个技术框架。 8.主要是数据倾斜,线上故障,性能调优,troubleshooting等经验。 9.使用模拟数据,希望达到的效果。 10.需求分析,方案设计,数据设计,编码实现,测试以及性能调优等环节。
2021-06-16 17:03:01 1.22MB java 电商 用户行为分析 Spark
音乐推荐系统 该项目已作为NCSU ADBI 591课程的一部分完成。 注意:如果您是北卡罗莱纳州立大学的学生,并且在谷歌搜索作业中遇到问题时,请确保已使您的教授知道您已将此作为参考。 盲目复制而不引用您的消息来源是a窃案。 创建了一个推荐系统,该系统将根据新用户的收听历史向他们推荐新的音乐艺术家。 向用户建议不同的歌曲或音乐艺术家对于许多音乐流媒体服务(例如Pandora和Spotify)很重要。 另外,这种推荐系统也可以用作向用户(例如,Netflix)推荐电视节目或电影的手段。 使用Apache Spark,Python和协作过滤技术完成。
2021-06-16 14:41:54 743KB 系统开源
1
Spark2.8.3.exe软件,igniterealtime.org官网下载实在太慢
2021-06-16 00:51:39 74.19MB Spark
1
scala安装包,版本2.13.6
2021-06-15 18:09:30 131.46MB spark scala
1
该资源总共包括23份学习资料,从Spark入门到底层实现都有包含,还有对Spark的架构以及内核的解析,同时还有Spark的实战,Spark集群的构建和Spark的相关编程实现
2021-06-15 13:07:17 152.86MB 大数据 spark 学习资料 必读书目