Spark在实际的工业生产和实践中已经获得了广泛的应用,但是由于其诞生的时间较晚,版本更新速度慢。现阶段,使用Spark框架在某些具体的大数据场景中能对其挖掘,就要结合原有的模块改写部分功能,发挥其应有的作用。解决大数据挖掘问题的同时,Spark框架由于功能性不足,如进行机器学习库的时候的MLlib里面解决关联新问题的分布式机器学习算法还有不足之处。故此,该文就Spark大数据挖掘技术开展深入的研究,希望能为该领域研究提供参考。
2021-10-26 17:38:27 1.64MB 大数据
1
项目背景 公司核心的实时业务用的是spark streaming2.3.0+kafka1.3的流式技术来开发的。在这里我把它做成了一个骨架项目并开源出来,希望后来的朋友可以借阅和参考,尽量少走些弯路。 下面是使用过程中记录的一些心得和博客,感兴趣的朋友可以了解下: 项目简介 该项目提供了一个在使用spark streaming2.3+kafka1.3的版本集成时,手动存储偏移量到zookeeper中,因为自带的checkpoint弊端太多,不利于项目升级发布,并修复了一些遇到的bug,例子中的代码已经在我们生产环境运行,所以大家可以参考一下。 主要功能 提供了快速使用 spark streaming + kafka 开发流式程序的骨架,示例中的代码大部分都加上了详细的注释 提供了手动管理kafka的offset存储到zookeeper的方法,并解决了一些bug,如kafka扩容分区,重启实
2021-10-26 17:13:10 14KB Scala
1
hadoop搭建相关文件文件
2021-10-25 21:00:59 124KB yyyy
1
spark所需要的scalajar包依赖
2021-10-25 18:13:28 148.3MB 111
1
分享课程——Spark3+Clickhouse+Hadoop大数据实战课程,2021新课,提供代码、课件和软件下载。 另外通过项目驱动,掌握Spark框架的精髓,教导Spark源码查看的技巧;会学到Spark性能优化的核心要点,成为企业急缺的数据分析人才;更会通过Clickhouse和Spark搭建OLAP引擎,使学员对大数据生态圈有一个更加全面的认识和能力的综合提升。真实的数据分析项目,学完即可拿来作为自己的项目经验,增加面试谈薪筹码。
2021-10-25 18:11:58 765B Spark Clickhouse Hadoop 大数据
1
SPARK与Handoop的学习.docx
2021-10-25 17:03:05 230KB 学习交流
1
这是官网下载的配置好的 pyspark 安装包 spark-2.3.0-bin-2.6.0-cdh5.7.0.tar.gz,可以直接解压使用
2021-10-24 19:35:44 203.52MB hadoop
1
给大家分享一套课程——Flink动态规则实时智能营销系统(Flink+Clickhouse+Drools整合实现)视频教程,希望对大家学习有帮助。
2021-10-22 20:07:28 771B flink clickhouse drools 营销系统
1
该包可以启动spark的thriftserver。可以解决报错failed load org.apache.spark.sql.hive.thriftserver.HiveThriftServer2的报错。
2021-10-21 21:01:57 200.37MB thriftserver spark sparksql sql
1
完成该项目的scala程序文件
2021-10-21 19:08:13 4KB spark scala