介绍:Spark-数据倾斜的解决方案
2022-06-07 20:01:03 1.89MB Spark 数据倾斜
1
最后终稿的毕业论文形式,而这一版查重率为3.2% 其中引用率还占1%以上。里面有项目运行指令图片、架构设计图、数据库图、数据库设计表等内容,让你直接下载即毕业。
2022-06-07 18:09:21 2.95MB big data spark 文档资料
1
最后终稿的毕业论文形式,而这一版查重率为3.2% 其中引用率还占1%以上。里面有项目运行指令图片、架构设计图、数据库图、数据库设计表等内容,让你直接下载即毕业。
2022-06-07 18:09:20 2.95MB big data spark 文档资料
1
包含数据分析、可视化后端、可视化前端三个项目的源码
2022-06-07 14:07:11 40.28MB spark 大数据 big data
电商用户行为分析大数据平台 项目介绍 1.基于Spark开发的平台 2.需要有spark基础 3.有很多高级知识和设计模式 4.电商用户行为分析大数据平台(项目名称) 5.访问行为,购物行为,广告点击行为,对这些行为进行分析,使用大数据技术来帮助公司提升业绩。 6.主要的功能模块有用户session分析,页面单跳转化率统计,热门商品离线统计,广告流量实时统计等4个业务模块。 7.所使用的知识点是spark core,spark SQL,spark streaming等三个技术框架。 8.主要是数据倾斜,线上故障,性能调优,troubleshooting等经验。 9.使用模拟数据,希望达到的效果。 10.需求分析,方案设计,数据设计,编码实现,测试以及性能调优等环节。 模块简介 1、用户访问session分析:该模块主要是对用户访问session进行统计分析,包括session的聚合指标计算
2022-06-07 00:34:55 1.28MB java spark hadoop sparkjava
1
spark-3.2.0-bin-hadoop3-without-hive
2022-06-06 13:22:41 173.18MB hive spark hadoop 数据仓库
1
ScANNS是Apache Spark的最近邻搜索库,最初由LinkedIn 机器学习算法团队的Namit Katariya开发。它可以在cosine、 jaccard和euclidean 距离空间内的批量离线上下文中进行最近邻搜索
2022-06-05 19:06:21 529KB scala apache spark 源码软件
Spark跨集群bulk load(6-2)
2022-06-05 14:05:55 121KB spark 大数据 big data
1
随机森林 这是 Spark 上随机森林算法的分布式实现。 这与 mllib 中可用的相同算法的实现不同。 在 mllib 中,随机森林算法是通过明智地拆分数据实例来实现的。 此实现是通过明智地拆分数据特征。 这种实现对于具有许多特征的数据非常有用。 我也做了一些即兴创作,删除了一些在这种实现方法中可以避免的类。 一个重要的改进是:现在,randomForest 的用户不需要提供 categoricalFeatureInfo(关于哪些是连续特征,一个分类特征包含多少类别的信息)作为输入。它现在被转换为一个 Option 这个实现会自动检测哪些是连续特征连续特征以及当 categoricalFeatureInfo 在用户输入中被指定为 None 时,分类特征包含多少个类别。
2022-06-04 03:47:54 1.02MB Scala
1
Spark streaming应用运行7天之后,自动退出,日志显示token for xxx(用户名): HDFS_DELEGATION_TOKEN owner=xxxx@xxxx.com, renewer=yarn, realUser=, issueDate=1581323654722, maxDate=1581928454722, sequenceNumber=6445344, masterKeyId=1583) is expired, current time: 2020-02-17 16:37:40,567+0800 expected renewal time: 2020-02-17
2022-06-03 18:57:25 37KB apache ar ark
1