大数据比赛 仓库说明 哔哩哔哩视频笔记在
2022-06-28 17:31:22 27.62MB Python
1
bigdata数据挖掘培训3.pptx
2022-06-23 13:00:40 2.17MB 互联网
大数据hive原始数据gulivideo,2020里面包括user.txt,video下面有6个文件
2022-06-15 01:18:29 117.59MB hive bigdata gulivideo
1
图计算技术应用探索.pptx; 券商大数据平台实践以及应用探讨—华泰证券李文强.pdf; 基于spark集群的券商个性化推荐系统架构设计最佳实践.pdf 基于Spark的数据湖项目初步实践.pdf 大数据建设及应用分享_20170923.pptx
2022-06-01 16:57:09 5.46MB bigData Spark
1
大数据相关框架学习 本仓库主要存放了一些学习大数据的实战项目代码,项目来源主要来自慕课网 1. 集群搭建 这里面的项目都可以通过搭建单机standalone模式完成整个流程 这学期云计算课程需要使用集群环境,刚好学校有云资源,记录下集群搭建过程 2. 目录结构 hadoop-train Hadoop基础与电商行为日志分析 新手入门大数据 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS、YARN、MapReduce以及Hive),并使用这些技术进行实战,最终完成电商行为日志分析项目,让你轻松入门大数据! 项目博客 spark-train, spark-data-visualization Spark Streaming实时流处理项目实战 本课程从实时数据产生和流向的各个环节出发,通过集成主流的分布式日志收集框架Flume、分布
2022-06-01 16:43:50 5.25MB Java
1
此案例使用的是IDEA开发工具,项目属于maven项目 使用JavaAPI操作Flink的流处理,Flink从Kafka中获取数据,执行处理后再执行输出。 根据(《Flink入门与实战》徐葳著)教材最后的综合案例改变,适合没有学习不会使用Flume的人使用
2022-05-30 18:04:27 37KB bigdata flink kafka 流处理
1
分为:IaaS 云平台搭建 IaaS 云平台运维 PaaS 云平台搭建 PaaS 云平台运维 大数据平台搭建 大数据平台运维 SaaS 云应用开发:大数据学情分析 微信小程序开发
2022-05-24 21:04:24 749KB docker bigdata openstack saas
1
目录网盘文件永久链接 1.1 大数据主流技术 1.2 大数据场景化解决方案 1.3 大数据应用开发 2.1 大数据离线处理方案 2.10 离线场景项目介绍 2.2 数据存储 - HDFS 2.3 数据仓库 - Hive 2.4 Hive SQL命令 2.5 Hive数据仓库设计 2.6 离线分析 - Spark SQL 2.7 Spark SQL架构原理 2.8 Spark SQL开发 2.9 数据采集工具 3.1 前言和概念 3.10 SQL ON HBase 3.11 HBase API使用 - 创建删除表 3.12 HBase API使用 - 读取数据 3.13 HBase优化 - 表设计 3.14 HBase优化 - 表操作 3.15 ElasticSearch简介 3.16 ElasticSearch特点与应用 3.17 ElasticSearch生态圈与架构 3.18 ElasticSearch缓存和倒排索引 3.19 ElasticSearch索引和搜索流程 3.2 行业应用和诉求 3.20 ElasticSearch客户端和SQL使用 .....
2022-05-07 14:03:42 327B HCIP BigData
目录网盘文件永久链接 1.1 数据挖掘概述 1.1.1 数据挖掘典型的应用场景 1.1.2 数据挖掘概述 1.2 数据挖掘基本流程 1.2.1 数据挖掘模式分类 1.2.2 数据挖掘流程 1.3 数据挖掘开发 1.3.1 数据、属性和度量 1.3.2 数据挖掘开发工具 2.1 行列式及矩阵 2.1.1 行列式 2.1.2 矩阵及其变换 2.2 特征值及奇异值 2.2.1 特征值分解 2.2.2 奇异值分解 2.3 随机事件 2.3.1 随机事件及其概率 2.3.2 离散型随机变量及其分布 2.3.3 连续型随机变量及其分布 2.4 条件概率 2.4.1 随机向量及其分布 2.4.2 条件概率-贝叶斯公式 2.4.3 随机变量的数字特征 2.5 假设检验 2.5.1 大数定律与中心极限定理 2.5.2 样本与抽样分布 2.5.3 参数估计与假设检验 2.6 模型分析 2.6.1 方差分析和回归分析 2.6.2 信息熵与基尼系数 2.7.1 最优化问题 2.7.2 梯度下降法 2.7.3 约束最优化 3.1 Python概述 3.2 基本数据类型 3.2.1 Python基础.....
2022-05-02 14:04:04 331B HCIE BigData DataMining
tianchi_bigdata 任务: 特征(39维): user特征、item特征、user-item特征、全局比例特征 数据采样 采用移动窗口target(17、15、13、11、9)+移动窗口样本采样(1、3、7、全部) 训练数据 正样本:15000,负样本:130000 测试数据 同样采用移动窗口变换采样,取了3天、5天、9天的做实验,最优提交为9天的,测试样本大小:155万 结果划分 结果最终取置信度0.78,取470条结果(子集结果),最终f1值:11.46% 排名:25/7200,队伍名:叮当 学习模型 RF 程序架构 combine_feature_txt:混合正负样本特征 cut_data_set.py:按照移动窗口方式,分割数据集 fetch_feature.py:提取特征 fetch_negative_sample:负样本抽样 fetch_sample:提取正、负样本
2022-04-30 10:13:34 8KB Python
1