搜索【spark 】的结果

分享课程——Spark 2.x + Python 大数据机器学习实战课程，完整版视频课程下载。本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型，帮助读者开发并部署高效可拓展的实时Spark解决方案。本课程从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分析、分类、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析和Pipeline等；为降低学习大数据技术的门槛，提供了丰富的案例实践操作和范例程序编码，展示了如何在单机Windows系统上建立Spark 2.x + Python开发环境；适合于学习大数据基础知识的初学者，更适合正在使用机器学习想结合大数据技术的人员；

2022-05-26 19:07:31 739B spark Python 大数据 机器学习

1

实验 Spark ML Bisecting k-means聚类算法使用

实验 Spark ML Bisecting k-means聚类算法使用，实验文档

2022-05-26 14:39:08 30KB spark ml kmeans

1

基于DOCKER的大数据环境脚本

Spark2.0+ElasticSearch开发用户画像实战笔记：（1） Spark2.0+ElasticSearch开发用户画像实战笔记：（2）配套资源 https://blog.csdn.net/lm19770429/article/details/124981430?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22124981430%22%2C%22source%22%3A%22lm19770429%22%7D&ctrtid=RGJIg

2022-05-26 14:06:21 17.26MB spark docker

1

winutils 运行spark等需要

包含各个版本的hadoop的winutils 可执行文件。

2022-05-26 14:06:18 5.09MB spark 大数据 big data

1

spark安装与搭建包

spark安装与搭建包，文件夹有spark-3.0.3-bin-hadoop2.7 （支持hadoop3.2以下），spark搭建步骤和spark课件。

2022-05-25 19:06:01 214.45MB spark 大数据 big data

1

java7hashmap源码-UserActionAnalyzePlatform-learn:电商用户行为分析大数据平台-spark

java7 hashmap源码电商用户行为分析大数据平台项目介绍 1.基于Spark开发的平台 2.需要有spark基础 3.有很多高级知识和设计模式 4.电商用户行为分析大数据平台（项目名称） 5.访问行为，购物行为，广告点击行为，对这些行为进行分析，使用大数据技术来帮助公司提升业绩。 6.主要的功能模块有用户session分析，页面单跳转化率统计，热门商品离线统计，广告流量实时统计等4个业务模块。 7.所使用的知识点是spark core，spark SQL，spark streaming等三个技术框架。 8.主要是数据倾斜，线上故障，性能调优，troubleshooting等经验。 9.使用模拟数据,希望达到的效果。 10.需求分析，方案设计，数据设计，编码实现，测试以及性能调优等环节。模块简介 1、用户访问session分析：该模块主要是对用户访问session进行统计分析，包括session的聚合指标计算、按时间比例随机抽取session、获取每天点击、下单和购买排名前10的品类、并获取top10品类的点击量排名前10的session。该模块可以让产品经理、数据分析师以

2022-05-25 18:28:02 1.28MB 系统开源

1

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

CDH6针对hive on spark的调优文档，这个是生产的实战经验

2022-05-25 14:07:36 539KB hive spark 文档资料 hadoop

1

Hadoop原理与技术Spark Streaming操作实验

一、实验目的 1.理解Spark Streaming的工作流程。 2.理解Spark Streaming的工作原理。 3.学会使用Spark Streaming处理流式数据。二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容（一）Spark Streaming处理套接字流 1：编写处理套接字流的java程序代码 2：导入缺失的jar包 3：把java程序导出为jar包 4：start-all.sh，启动所有进程，并查看情况 5：启动Spark分布式集群并查看信息 6：启动9999端口 7：切换到jar包所在路径 8：提交程序到spark集群上运行 9：监测端口内容，每隔10秒钟输出一次，当有内容出现的时候，单词计数输出内容 10：退出监测，Ctrl+Z，但是这样并没有完全退出监测，到http://localhost:8080/里杀死该任务，也可以使用Ctrl+C完全退出（二）Spark Streaming处理RDD队列流（三）Spark Streaming处理文件流

2022-05-25 12:04:47 10.27MB hadoop spark 文档资料 大数据

Hadoop原理与技术Spark操作实验

一、实验目的 1．理解Spark编程思想； 2．学会在Spark Shell中编写Scala程序； 3．学会在Spark Shell中运行Scala程序。二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容（一）Spark基础知识（1）输入start-all.sh启动hadoop相应进程和相关的端口号（2）启动Spark分布式集群并查看信息（3）网页端查看集群信息（4）启动spark-shell控制台 1：local模式启动 2：登录master服务器，在集群模式下启动（5）访问http://localhost:4040可以看到spark web界面（6）从本地文件系统中加载数据（7）从分布式文件系统HDFS中加载数据（8）可以调用SparkContext的parallelize方法，在Driver中一个已经存在的数组上创建RDD。（9）可以调用SparkContext的parallelize方法，在Drive （二）spark运行wordcount程序

2022-05-25 12:04:47 6.74MB hadoop spark 文档资料 大数据

spark官方文档中文版

图文并茂，通俗易懂，是入门spark的首选材料图文并茂，通俗易懂，是入门spark的首选材料图文并茂，通俗易懂，是入门spark的首选材料

2022-05-24 19:55:31 3.11MB spark

1

个人信息

热门下载

最新下载

其他资源