搜索【SPARK】的结果

Spark-数据倾斜的解决方案.pdf

介绍：Spark-数据倾斜的解决方案

2022-06-07 20:01:03 1.89MB Spark 数据倾斜

1

基于Spark新闻网大数据实时分析设计与实现

最后终稿的毕业论文形式，而这一版查重率为3.2% 其中引用率还占1%以上。里面有项目运行指令图片、架构设计图、数据库图、数据库设计表等内容，让你直接下载即毕业。

2022-06-07 18:09:21 2.95MB big data spark 文档资料

1

基于Spark新闻网大数据实时分析设计与实现

最后终稿的毕业论文形式，而这一版查重率为3.2% 其中引用率还占1%以上。里面有项目运行指令图片、架构设计图、数据库图、数据库设计表等内容，让你直接下载即毕业。

2022-06-07 18:09:20 2.95MB big data spark 文档资料

1

Spark SQL分析美国新冠肺炎疫情源码

包含数据分析、可视化后端、可视化前端三个项目的源码

2022-06-07 14:07:11 40.28MB spark 大数据 big data

UserActionAnalyzePlatform:电商用户行为分析大数据平台

电商用户行为分析大数据平台项目介绍 1.基于Spark开发的平台 2.需要有spark基础 3.有很多高级知识和设计模式 4.电商用户行为分析大数据平台（项目名称） 5.访问行为，购物行为，广告点击行为，对这些行为进行分析，使用大数据技术来帮助公司提升业绩。 6.主要的功能模块有用户session分析，页面单跳转化率统计，热门商品离线统计，广告流量实时统计等4个业务模块。 7.所使用的知识点是spark core，spark SQL，spark streaming等三个技术框架。 8.主要是数据倾斜，线上故障，性能调优，troubleshooting等经验。 9.使用模拟数据,希望达到的效果。 10.需求分析，方案设计，数据设计，编码实现，测试以及性能调优等环节。模块简介 1、用户访问session分析：该模块主要是对用户访问session进行统计分析，包括session的聚合指标计算

2022-06-07 00:34:55 1.28MB java spark hadoop sparkjava

1

spark-3.2.0-bin-hadoop3-without-hive

2022-06-06 13:22:41 173.18MB hive spark hadoop 数据仓库

1

Apache Spark 中可扩展的最近邻搜索库_Scala

ScANNS是Apache Spark的最近邻搜索库，最初由LinkedIn 机器学习算法团队的Namit Katariya开发。它可以在cosine、 jaccard和euclidean 距离空间内的批量离线上下文中进行最近邻搜索

2022-06-05 19:06:21 529KB scala apache spark 源码软件

Spark跨集群bulk load（6-2）

2022-06-05 14:05:55 121KB spark 大数据 big data

1

randomForest:这是 Spark 上随机森林算法的分布式实现。这与 mllib 中可用的相同算法的实现不同。在 mllib 中，随机森林算法是通过明智地拆分数据实例来实现的。这种实现是通过明智地拆分数据特征。这种实现对于具有许多特征的数据非常有用。我也做了一些即兴创作，删除了一些在这种实现方法中可以避免的类一个重要的改进是

随机森林这是 Spark 上随机森林算法的分布式实现。这与 mllib 中可用的相同算法的实现不同。在 mllib 中，随机森林算法是通过明智地拆分数据实例来实现的。此实现是通过明智地拆分数据特征。这种实现对于具有许多特征的数据非常有用。我也做了一些即兴创作，删除了一些在这种实现方法中可以避免的类。一个重要的改进是：现在，randomForest 的用户不需要提供 categoricalFeatureInfo（关于哪些是连续特征，一个分类特征包含多少类别的信息）作为输入。它现在被转换为一个 Option 这个实现会自动检测哪些是连续特征连续特征以及当 categoricalFeatureInfo 在用户输入中被指定为 None 时，分类特征包含多少个类别。

2022-06-04 03:47:54 1.02MB Scala

1

Spark hadoop票据过期问题HDFS_DELEGATION_TOKEN

Spark streaming应用运行7天之后，自动退出，日志显示token for xxx(用户名): HDFS_DELEGATION_TOKEN owner=xxxx@xxxx.com, renewer=yarn, realUser=, issueDate=1581323654722, maxDate=1581928454722, sequenceNumber=6445344, masterKeyId=1583) is expired, current time: 2020-02-17 16:37:40,567+0800 expected renewal time: 2020-02-17

2022-06-03 18:57:25 37KB apache ar ark

1

个人信息

热门下载

最新下载

其他资源