清华大学 学堂在线,高级大数据系统课件笔记:讲解内容:大数据系统导论、linux 数据处理基础、分布式文件系统、map reduce、内存化的数据处理、流数据处理、NoSQL、图处理、机器学习系统等。
1
关于常用的一个hadoop的python脚本代码,包括两种字典,一种是file分发的,一种是靠输入并且,一起经过shuffle排序,再进行计算的。限于文件大小限制,只有代码,不包含字典文件,所以不能直接运行,请见谅
2021-11-23 08:22:45 5KB hadoop 字典输入
1
分享知识要点:lubridate包拆解时间|POSIXlt利用决策树分类,利用随机森林预测利用对数进行fit,和exp函数还原训练集来自Kaggle华盛顿自行车共享计划中的自行车租赁数据,分析共享自行车与天气、时间等关系。数据集共11个变量,10000多行数据。https://www.kaggle.com/c/bike-sharing-demand首先看一下官方给出的数据,一共两个表格,都是2011-2012年的数据,区别是Test文件是每个月的日期都是全的,但是没有注册用户和随意用户。而Train文件是每个月只有1-20天,但有两类用户的数量。求解:补全Train文件里21-30号的用户数量
2021-11-18 15:40:10 202KB Python大数据处理案例
1
dataset-master是一个公开的数据集,它经常被用来练习处理大数据,常用的语言是python,里面涉及到各种各种的数据集比如鸢尾花分类的数据集、航班数据集、某一年地震统计数据集等等,可以借助数据使用plotly进行绘制各种统计图练习。
2021-11-17 10:26:40 201.63MB dataset-master
1
PySpark大数据处理及机器学习Spark2.3视频教程,本课程主要讲解Spark技术,借助Spark对外提供的Python接口,使用Python语言开发。
2021-11-10 18:11:44 541B PySpark Spark2.3 大数据 机器学习
1
浙江省法人库标准,数据清理可参考。主要内容包含:范围、规范性引用文件、术语和定义、法人信息分类、法人库数据框架、法人库基础数据元等。
2021-11-04 09:52:40 7.14MB 大数据处理 政务数据 脱敏指南
1
史上最全的Hadoop配置完全手册
2021-10-17 17:40:59 11.66MB hadoop
1
包括:《Spark大数据处理:技术、应用与性能优 》 《Spark大数据处理技术》 《Spark高级数据分析》 《Spark快速数据处理_中文版》 《大数据Spark企业级实战》 《Spark 编程指南》 方便大家共同学习
2021-10-13 15:07:52 48.48MB Spark 大数据处理 技术
1
行业分类-电子政务-一种基于大数据处理的电子商务平台系统.zip
电商流量大数据处理系统设计与开发_王宇凯
2021-09-06 17:06:30 2.01MB