MartinHub的学习笔记 关于我 MartinHub :smiling_face_with_sunglasses: ,,热爱生活!热爱技术! 微信公众号【MartinHub】 个人微信号【MartinHub】 项目介绍 大数据 Java 数据库 Linux 杂记 :bullseye: :hot_beverage: :floppy_disk: :cloud: :memo: :black_nib:本仓库有来源自己总结,网上收集,视频笔记,如果有区别之处,可以联系我进行删除。 :scroll:笔记仓库: GitHub上: Gitee: :scroll:笔记地址: GitHub上: Gitee: 因个人能力有限,笔记中可能还有很多错误的地方,还请大家能够多多指出交流,也欢迎各位小伙伴能够提交拉请求请求进行完善。 注意:因为构建页面的框架缓存,访问笔记地址时,为防止最新更新的笔记看不到,请浏览器打开网址后,先清除页面缓存。
2021-10-30 16:21:25 18MB HTML
1
spark-twitter-stream-example:使用Apache Spark和Apache Bahir在实时Twitter提要上进行的“情感分析”
2021-10-30 15:30:52 32KB streaming twitter spark TwitterScala
1
org.spark-project.hive 源码, The Apache Hive (TM) data warehouse software facilitates querying and managing large datasets residing in distributed storage.
2021-10-30 11:41:46 21.68MB hive spark saprk-project.hi
1
使用 Spark 进行响应式 Web 日志挖掘 Web 日志分析基于符合 W3C Web 服务器日志格式的日志文件。 IIS 是支持这种格式的主要候选者。 挖掘功能本身不限于这种格式,可以通过更改配置参数轻松适应其他日志文件。 此处使用 Web Log Mining 来提取常见的 Web 分析参数。 项目将与 Spark 集成在一起,例如使用马尔可夫模型预测客户参与事件的购买范围。 这些模型还可以应用于来自 W3C 网络服务器日志的数据,以预测有价值的参数。 Web日志微服务 该项目实现了基于 Akka Remoting 的微服务,因此可以轻松集成到任何基于 Akka 的松耦合环境中。 这种架构方法为分布式数据处理系统带来了 Spark 的强大功能。 Akka 是一个使用构建并发可扩展应用程序的工具包。 Akka 带有一个称为Akka Remoting的功能,它可以轻松地以对等方式
2021-10-30 10:20:30 114KB Scala
1
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 知识点介绍、代码演示、逻辑分析、灵活举例、使用图形的方式详细演示代码的流程和细节、整合企业级实战案例,全面讲解并突出重点,让学习也变成一种快乐。 课程亮点 1,知识体系完备,阶段学习者都能学有所获。 2,综合各种方式演示代码、分析逻辑,生动形象,化繁为简,讲解通俗易懂。 3,结合工作实践及分析应用,培养解决实际问题的能力。 4,使用综合案例来加强重点知识,用切实的应用场景提升编程能力,充分巩固各个知识点的应用。 5,整个课程的讲解思路是先提出问题,然后分析问题,并编程解决解题。 适用人群 1、对大数据感兴趣的在校生及应届毕业生。 2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。 3、对大数据行业感兴趣的相关人员。 课程内容 第一章、Spark 基础环境 1.课程安排说明 2.Spark 框架概述 3.快速入门 4.Standalone集群及HA 5.Spark 应用开发入门 6.Spark 应用提交 7.Spark on YARN 8.应用部署模式DeployMode 第二章、SparkCore 模块 1.RDD 概念及特性 2.RDD 创建 3.RDD 函数及使用 4.RDD 持久化 5.案例:SogouQ日志分析 6.RDD Checkpoint 7.外部数据源(HBase和MySQL) 8.广播变量和累加器 9.Spark 内核调度 10.Spark 并行度 第三章、SparkSQL 模块 1.快速入门:词频统计 2.SparkSQL 概述 3.DataFrame 4.RDD与DataFrame转换 5.数据分析SQL和DSL 6.案例:电影评分数据分析 7.DataSet 8.外部数据源Exeternal DataSource 9.集成Hive 10.自定义函数UDF 11.分布式SQL引擎(spakr-sql和Spark ThriftServer) 12.Catalyst 优化器 第四章、离线综合实战 1.综合实战概述(需求、调研、业务) 2.环境搭建(大数据环境和应用开发环境) 3.项目初始化(工具类和属性文件) 4.广告数据ETL 5.Spark 分布式缓存 6.业务报表分析 7.应用执行部署 8.Oozie和Hue集成调度Spark 应用 第五章、SparkStreaming 模块 1.Streaming流式应用概述 2.Streaming 计算模式 3.SparkStreaming计算思路 4.入门案例 5.SparkStreaming工作原理 6.DStream及函数 7.集成Kafka 8.案例:百度搜索风云榜(实时ELT、窗口Window和状态State) 9.SparkStreaming Checkpoint 10.消费Kafka偏移量管理 第六章、StructuredStreaming模块 1.StructuredStreaming 概述(核心设计和编程模型) 2.入门案例:WordCount 3.输入源InputSources 4.Streaming Query 设置 5.输出终端OutputSink 6.集成Kafka(Source和Sink) 7.案例:物联网设备数据分析 8.事件时间窗口分析 9.Streaming Deduplication数据去重 10.Continues Processing连续流处理 第七章、实时综合实战 1.综合实战概述(需求、环境搭建和项目初始化) 2.模拟交易订单数据 3.数据实时ETL存储Kafka 4.实时应用停止 5.实时增量存储(存储HBase和Elasticsearch) 6.实时订单报表(Kafka-StructuredStreaming-Redis) 7.实时应用性能调优(数据本地性、反压机制、动态资源和日志管理)
2021-10-29 18:06:32 4KB spark sparksql 大数据 数据分析
新的spark版本,增加了新的功能,欢迎大家下载使用!!!
2021-10-29 12:47:43 219.43MB spark hadoop
1
Win10下spark-shell报错处理-附件资源
2021-10-29 10:49:54 106B
1
DIANPING 介绍: 基于elasticSearch + Spark的智能搜索和推荐系统 基础服务搭建 Java环境: JDK1.8 数据库: MySQL5.6+ Java框架版本: SpringBoot2.1.5 Maven: Maven3.2 机器学习框架: Spark Mllib 2.4.4 搜索中间件: ElasticSearch7.3.0 品类管理服务 新增品类 查询品类 门店服务 门店创建 门店地理位置(基于lbs 地理位置接入) 门店查询 目录:
2021-10-28 15:39:08 33.79MB JavaScript
1
Spark内核机制解析及性能调优 pdf 书签 高清 Spark内核机制解析及性能调优 pdf 书签 高清
2021-10-28 15:26:22 167.47MB Spark调优
1
示例项目显示了如何使用Spark创建WebSocket服务器。 服务器设置为在ws:// localhost:8080 / socket上侦听,并且将通过将内容回显给发件人来响应二进制消息和文本消息。 克隆项目并运行gradle run来启动它。
2021-10-28 12:44:07 57KB HTML
1