CentOS Linux中搭建Hadoop和Spark集群详解,Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理基础框架。其擅长于在廉价机器搭建的集群上进行海量数据(结构化与非结构化)的存储与离线处理。Hadoop就是一门用来处理大数据的技术,就是用来解决上述提到的分布式计算里面的5个技术难题的。
2021-06-13 18:50:15 1.94MB hadoop spark
1
RDD编程初级实践
2021-06-13 13:00:42 2.64MB spark
1
sparkssql2.docx
2021-06-11 21:02:24 1.37MB spark
1
java毕业论文源码Spark分类 这个repo保存源代码并记录我们毕业论文和项目的项目进度 论文题目 平台信息 Hadoop 版本: Spark 版本: Java 版本: 操作系统: 等待添加...
2021-06-11 16:06:14 559B 系统开源
1
小标签 使用 Spark、ML 和 solr 标记整个 8000 万个微型图像数据集并使其可搜索 完整数据集位于 位于CIFAR-100 子集
2021-06-10 20:03:43 165.97MB CSS
1
本书用于Hadoop+Spark快速上手,全面解析Hadoop和Spark生态系统,通过原理解说和实例操作每一个组件,让读者能够轻松跨入大数据分析与开发的大门。   全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作。第2部分(第8~11章)讲解Spark的原生态组件,包括SparkCore、SparkSQL、SparkStreaming、DataFrame,以及介绍Scala、SparkAPI、SparkSQL、SparkStreaming、DataFrame原理和CDH版本环境下实战操作,其中Flume和Kafka属于Apache*开源项目也放在本篇讲解。第3部分(第12章)讲解两个大数据项目,包络网页日志离线项目和实时项目,在CDH版本环境下通过这两个项目将Hadoop和Spark原生态组件进行整合,一步步带领读者学习和实战操作。   本书适合想要快速掌握大数据技术的初学者,也适合作为高等院校和培训机构相关专业师生的教学参考书和实验用书。
2021-06-10 19:56:44 11.67MB Hadoop Spark
1
基于spark-ml,scala实现gbdt 算法,附带libsvm训练集和普通训练集实现,GBDT (Gradient Boosting Decision Tree) 梯度提升迭代决策树。GBDT 也是 Boosting 算法的一种,但是和 AdaBoost 算法不同(AdaBoost 算法上一篇文章已经介绍);区别如下:AdaBoost 算法是利用前一轮的弱学习器的误差来更新样本权重值,然后一轮一轮的迭代;GBDT 也是迭代,但是 GBDT 要求弱学习器必须是 CART 模型,而且 GBDT 在模型训练的时候,是要求模型预测的样本损失尽可能的小。
2021-06-10 19:29:04 40KB 机器学习 spark-ml GBDT 人工智能
1
高性能高扩展的千亿级实时数据仓库全实现(通用企业级解决方案),完整版178讲,提供源码和课件下载!本课程凝聚讲师多年一线大数据企业实际项目经验,大数据企业在职架构师亲自授课,全程实操代码,带你体验真实的大数据开发过程,代码现场调试。通过本课程的学习再加上老师的答疑,你完全可以将本案例直接应用于企业
2021-06-10 19:04:51 810B flink 大数据 spark
1
RDD编程初级实践Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBas
2021-06-09 18:05:55 11KB spark
1