搜索【Spark ClickHouse】的结果

基于Spark的大数据挖掘技术的研究

Spark在实际的工业生产和实践中已经获得了广泛的应用,但是由于其诞生的时间较晚,版本更新速度慢。现阶段,使用Spark框架在某些具体的大数据场景中能对其挖掘,就要结合原有的模块改写部分功能,发挥其应有的作用。解决大数据挖掘问题的同时,Spark框架由于功能性不足,如进行机器学习库的时候的MLlib里面解决关联新问题的分布式机器学习算法还有不足之处。故此,该文就Spark大数据挖掘技术开展深入的研究,希望能为该领域研究提供参考。

2021-10-26 17:38:27 1.64MB 大数据

1

sparkStreaming-offset-to-zk:手动管理spark streaming集成kafka的数据偏移量到zookeeper中-源码

项目背景公司核心的实时业务用的是spark streaming2.3.0+kafka1.3的流式技术来开发的。在这里我把它做成了一个骨架项目并开源出来，希望后来的朋友可以借阅和参考，尽量少走些弯路。下面是使用过程中记录的一些心得和博客，感兴趣的朋友可以了解下：项目简介该项目提供了一个在使用spark streaming2.3+kafka1.3的版本集成时，手动存储偏移量到zookeeper中，因为自带的checkpoint弊端太多，不利于项目升级发布，并修复了一些遇到的bug，例子中的代码已经在我们生产环境运行，所以大家可以参考一下。主要功能提供了快速使用 spark streaming + kafka 开发流式程序的骨架，示例中的代码大部分都加上了详细的注释提供了手动管理kafka的offset存储到zookeeper的方法，并解决了一些bug，如kafka扩容分区，重启实

2021-10-26 17:13:10 14KB Scala

1

spark完全分布式环境搭建.pdf

hadoop搭建相关文件文件

2021-10-25 21:00:59 124KB yyyy

1

spark所需要的scala jar包依赖

spark所需要的scalajar包依赖

2021-10-25 18:13:28 148.3MB 111

1

Spark3+Clickhouse+Hadoop大数据实战视频课程（2021新课）.rar

分享课程——Spark3+Clickhouse+Hadoop大数据实战课程，2021新课，提供代码、课件和软件下载。另外通过项目驱动，掌握Spark框架的精髓，教导Spark源码查看的技巧；会学到Spark性能优化的核心要点，成为企业急缺的数据分析人才；更会通过Clickhouse和Spark搭建OLAP引擎，使学员对大数据生态圈有一个更加全面的认识和能力的综合提升。真实的数据分析项目，学完即可拿来作为自己的项目经验，增加面试谈薪筹码。

2021-10-25 18:11:58 765B Spark Clickhouse Hadoop 大数据

1

SPARK与Handoop的学习.docx

2021-10-25 17:03:05 230KB 学习交流

1

配置好的 pyspark 安装包 spark-2.3.0-bin-2.6.0-cdh5.7.0.tar.gz

这是官网下载的配置好的 pyspark 安装包 spark-2.3.0-bin-2.6.0-cdh5.7.0.tar.gz，可以直接解压使用

2021-10-24 19:35:44 203.52MB hadoop

1

Flink动态规则实时智能营销系统（Flink+Clickhouse+Drools整合实现）视频教程

给大家分享一套课程——Flink动态规则实时智能营销系统（Flink+Clickhouse+Drools整合实现）视频教程，希望对大家学习有帮助。

2021-10-22 20:07:28 771B flink clickhouse drools 营销系统

1

spark-2.4.8-bin-2.6.0-with-hive.tgz

该包可以启动spark的thriftserver。可以解决报错failed load org.apache.spark.sql.hive.thriftserver.HiveThriftServer2的报错。

2021-10-21 21:01:57 200.37MB thriftserver spark sparksql sql

1

MusicTest.scala

完成该项目的scala程序文件

2021-10-21 19:08:13 4KB spark scala

个人信息

热门下载

最新下载

其他资源