spark 机器学习使用的例子数据
2022-04-06 02:48:44 102KB spark 机器学习 大数据 big
1
spark rdd 实战 ,基本语法
2022-04-06 02:48:42 550KB spark 大数据 big data
1
包括278章,很多大数据Java版本的示例代码
2022-04-06 02:48:38 15.69MB java big data spark
1-如何用Sparklens对Spark做性能优化 2-Spark3.0大幅性能优化详解 3-Spark OOM总结 4-多易-Spark3.0原理深入和实战 5-Spark经典调优
2022-04-06 02:48:37 8.65MB spark 大数据 big data
1
Spark性能优化,防止数据倾斜
2022-04-06 02:48:27 25KB spark 性能优化 大数据 big
1
Spark内存管理和分配
2022-04-06 02:48:26 213KB spark 大数据 big data
1
使用spark操作hudi表: 1、查询hudi表数据 2、查看hudi表结构信息
2022-04-06 02:48:24 900B spark 大数据 big data
1
财经新闻搜索引擎 从财经新闻网页数据开始,进行正文提取、中文分词、倒排索引构建、执行搜索和UI。 要求技术:MapReduce或Spark;执行搜索和UI采用Spark或Java 步骤: (1)新闻正文提取,采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。 评分标准:一个栏目15分(多一个栏目+5分)(25分);使用通用算法提取不固定格式正文(不算很难)40分 (2)中文分词(worldcount),将正文进行中文分词,保存每个新闻的URL、标题、正文等数据 评分标准:分词并将正文存储到文件15分;存储到HBase(本地)+5分 (3)倒排索引构建,将词汇、次数和文章ID构建成倒排索引和对应的TF值 评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分 (4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章进行排序,显示排序后的正文摘要 评分标准:25分,有交互式UI(如网页)+10分 (5)优化和执行 评分标准:shuffle优化并做对比测试+10分;第(2)
2022-04-06 02:48:23 6.88MB 搜索引擎 spark 中文分词 大数据
分享一套用户画像视频教程——Spark+ES+ClickHouse 构建DMP用户画像,已完结,共8章。 行业竞争越来越激烈,精细化经营成为各企业取胜的秘籍。用户画像系统作为提供精准用户数据的重要来源,已经成为企业必备的核心平台,人才缺口大,薪资高。 本课程将基于大数据主流技术,数据挖掘核心算法,带你打造企业实用的用户画像平台,提升你的个人竞争力。业务-算法-技术,环环相扣,轻松掌握完整用户画像知识体系;热门业务场景,企业应用标准,项目扩展性强,可复用;从架构到开发部署,逐层递进,还原企业真实开发流程
2022-04-06 02:48:22 745B spark clickhouse 大数据 用户画像
1
hadoop,spark,hive.....
2022-04-06 02:48:19 5.62MB hive hadoop spark big
1