推荐,最强大数据学习与最佳实践资料合集,基础+架构+治理+案例,共100份。 一、基础篇 快手EB级HDFS挑战与实践 Hive任务开发规范 一文看懂Hadoop生态圈 资料-CentOS7搭建Hadoop-2.7.7集群 ClickHouse官方中文文档 ETL流程、数据流图及ETL过程解决方案 Google-MapReduce中文版_1.0 Hadoop安装及分布式部署 Hadoop精选面试题和MapReduce编程企业级编程实践 HDFS-part2-原理详解 HDFS核心内容及命令-2020 hive安装 hive语法和常用函数 Kafka安装 kylin安装 mapreduce调优指南 sqoop安装 二、架构篇 Flink-1.11 Hive集成与批流一体 ClickHouse在苏宁用户画像场景的实践 优酷大数据 OLAP 技术选型 阿里数据湖选型 各种系统架构图与详细说明 关于BI工具选型的参考依据 Apache Doris在京东搜索实时OLAP中的应用 ClickHouse官方中文文档 ClickHouse原理解析与应用实践 Doris竞品对比 Doris在美团外卖数仓架构中业务实践与改进思路 DorisDB原理剖析 和应用实践篇2021 Flink 流批一体的技术架构以及在阿里的实践 Flink实时仓库实践 Hadoop开源相关,Flink,Kylin等集群搭建2021 KylinCloud+Hudi实践 三、数仓篇 传统数仓与大数据数仓区别 模板-事实表梳理 模板-维度梳理 模板-业务梳理 模板-指标体系梳理 模板1-数据仓库项目计划 模板2-命名规范 模板3_访谈提问和沟通记录单模板 模板4_公共数据资源管理调研模板 模板5_公共数据资源管理分析模板 模板6-报表需求梳理 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 商业银行数据仓库系统V2.0 数据仓库建设方案 数据仓库建设规范模板 数据仓库整体设计方案模板 Hadoop构建数据仓库实践 四、治理篇 快手从模型规范开始的数据治理实践 第12章元数据管理-DAMA-DMBOK:数据管理知识体系 权限管理设计方案 数据安全模板-访问权限梳理表 数据治理服务解决方案 数据治理及数据资产化创新实践-京东 万振龙:数据治理与大数据平台设计 主数据管理实践白皮书(1.0版) Apache atlas使用说明文档 atlas安装 CDH启用kerberos身份认证和sentry权限管理 DAMA-部委级数据治理项目经验分享 GrowingIO 2020指标体系与数据采集 GrowingIO公开课:搭建业务+数据一体化的指标体系 IBM 数据治理统一流程 ISO38500 IT治理国际标准 ISO_IEC_38500_2008_version_PDF 五、案例篇 字节Apache Flink在字节跳动的实践 Hudi on Flink在顺丰的实践应用-蔡适择 滴滴Flink在滴滴出行的应用与实践 阿里基于Flink的实时计算平台 菜鸟在物流场景中基于Apache Flink的流计算实践 腾讯clickhouse实践 Clickhouse玩转每天千亿数据-趣头条 微博基于Flink的机器学习实践 快手稳定性体系建设 快手元数据平台化建设及应用场景 快手指标规范化及OneService平台化实战 Apache Flink 在美团的实践与应用 快手服务治理平台+KESS+的设计理念和实战 快手数据中台建设:大数据服务化之路 快手离线数据全链路分级保障平台化建设 快手万亿级实时 OLAP 平台的建设与实践 ClickHouse在快手的大规模应用与架构改进 美团点评酒旅数据仓库建设实践 美团酒旅数据治理实践 美团外卖为何使用Doris创建数据仓库 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 实时数据产品实践——美团大交通战场沙盘 ClickHouse在苏宁用户画像场景的实践 腾讯云clickhouse性能调优实践 融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系 ClickHouse 在头条的技术演进 Doris的用户画像人群应用-会议组 Doris在美团外卖数仓架构中业务实践与改进思路 Flink 在 OPPO 的平台研发与应用实践 Flink实时仓库实践 Flink在滴滴的应用实践
课程目录: 第1章:Hive基本架构及环境部署 1.MapReduce分析与SQL分析对比 2.Hive的介绍及其发展 3.Hive的安装部署及启动 4.Hive的基本架构讲解 5.安装MySQL作为元数据库存储 6.配置Hive使用MySQL作为元数据库存储 7.Hive中基本命令的使用 8.Hive中常用的属性配置 9.Hive中常用的交互式命令 10Hive中数据库的管理与使用 11.Hive中表的管理与使用 12.Hive中外部表的使用 第2章:Hive 常用DML、UDF及连接方式 13.Hive中分区表的介绍 14.Hive中分区表的创建及使用 15.Hive中数据导入的6种方式及其应用场景 16.Hive中数据导出的4种方式及表的导入导出 17.Hive中HQL的基本语法(一) 18.Hive中HQL的基本语法(二) 19.Hive中order by、sort by、distribute by与cluster by的使用 20.Hive中分析函数与窗口函数 21.Hive中UDF的介绍 22.Hive中使用自定义UDF实现日期格式转换 23. HiveServer2的介绍及三种连接方式 24.Hive元数据、fetch task和严格模式的介绍 第3章:Sqoop Sqoop及用户行为分析案例 25.CDH版本框架的介绍 26. CDH版本框架的环境部署 27.Sqoop的介绍及其实现原理 28.Sqoop的安装部署及连接测试 29.Sqoop将MySQL数据导入到HDFS(一) 30.Sqoop将MySQL数据导入到HDFS(二) 31.Sqoop中的增量导入与Sqoop job 32.Sqoop将MySQL数据导入Hive表中 33.Sqoop的导出及脚本中使用的方式 34.案例分析-动态分区的实现 35.案例分析-源表的分区加载创建 36.案例分析-指标分析使用Sqoop导出 第4章:Hive复杂用户行为案例分析及优化 37.自动批量加载数据到hive 38.Hive表批量加载数据的脚本实现(一) 39.Hive表批量加载数据的脚本实现(二) 40.HIve中的case when、cast及unix_timestamp的使用 41.复杂日志分析-需求分析 42.复杂日志分析-需求字段讲解及过滤 43.复杂日志分析-字段提取及临时表的创建 44.复杂日志分析-指标结果的分析实现 45.Hive中数据文件的存储格式介绍及对比 46.常见的压缩格式及MapReduce的压缩介绍 47.Hadoop中编译配置Snappy压缩 48.Hadoop及Hive配置支持snappy压缩 49.Hive中的常见调优 50.Hive中的数据倾斜及解决方案-三种join方式 51.Hive中的数据倾斜及解决方案-group by 52.Hive中使用正则加载数据 53. Hive中使用Python脚本进行预处理 第5章:Zeus任务资源调度工具 54.资源任务调度框架介绍 55.企业中常见的任务调度框架 56.Zeus的介绍及基本实现原理 57.Zeus安装部署-基本环境配置 58.Zeus安装部署-配置文件的修改 59.Zeus安装部署-编译打包 60.Zeus平台的调度使用 61.Zeus平台实现任务调度应用(一) 62.Zeus平台实现任务调度应用(二) 63.Zeus平台实现任务调度应用(三)
2021-10-08 23:18:38 219B hive 大数据
1
阿里大数据之路:阿里巴巴大数据实践-339页
2021-10-01 09:15:42 85.9MB 大数据实践
来自新浪网的高级开发工程师——糖果,他认为企业构建威胁防御系统是一种基础性的工作,通过什么样的系统架构和数据流程处理,让威胁数据分析与威胁风险识别更高效呢?成为了一个课题,如何面对企业内部系统结构的复杂性处理,如何使用业界通用工具,同时采用前沿的大数据解决方案,让我们面对威胁攻击行为与纷至沓来的情报信息源时,可以行之有效的去伪存真,把握关键重点,给企业监控系统装上鼻子,嗅探到威胁的存在。给系统装上眼睛,甄别出真正的关键威胁,形成了构建威胁防御系统的重要指标,新浪通过将威胁系统与大数据平台的结合,发现了一条可以实践的路。 构建安全防护系统与大数据日志分析系统,完成业务系统、防护系统、日志分析系统之间的数据交互,通过在系统间传递日志或是主动发起交互,来判断被监控系统状态与安全性,发现隐藏在背后异动与威胁,提供了一种开发性的系统建设思路,透视出构建大数据平台所用的基础技术解决方案。 目录 云WAF威胁防护 安全网关案例实践 负载均衡与自动运维 端口扫描与日志分析汇聚 AGENT与大数据聚合 日志系统数据迁移 云WAF系统构成解析 日志监听与威胁分析 CH大数据系统日志接入
大数据分析平台总体架构——数据质量管理 数据质量管理框架蓝图如下,其中数据质量提升是改进数据质量的手段和质量考评的目的: 数据质量要求确认,根据业务要求制定和明确数据质量要求,同时也需要符合数据标准的要求; 数据质量考评,对数据质量的量化评价 制定数据质量问题解决方案,根据数据质量考评和日常工作中发现的数据质量问题,实施相应的措施,提升数据质量 数据质量要求 业务规则 数据一致性要求 数据完整性要求 数据唯一性要求 数据准确性要求 数据及时性要求 数据质量 标准 数据质量 验证规则 数据质量 考核指标 数据质量提升 数据补录 手工修正 自动修正 数据质量考评 数据质量监控 不定期数据质量检查 数据质量 分析报告
2021-08-07 23:07:08 5.01MB 大数据 电商 系统架构
1
大数据分析平台总体架构——数据安全管理 数据安全管理可分为数据安全分级管理和数据访问授权管理两个部分: 数据安全分级:根据业务要求,制定一系列的数据安全分级标准和政策,为数据应用以及数据管理中实施数据安全保护和访问提供数据安全控制的基础。 数据访问授权:数据访问授权的主要工作是根据数据安全分级标准,定义数据访问的授权方法及流程,建立基于数据安全分级的数据使用授权机制,实现数据访问和信息披露的安全。 数据安全分级 数据敏感度 数据安全 等级定义 数据访问授权 数据重要性 数据使用需求 数据使用者权责 数据访问 授权规则 安全技术
2021-07-13 13:44:57 5.01MB 大数据 电商 系统架构
1
阿里巴巴大数据实践之路-陈鹏宇.pdf
2021-07-02 18:02:50 11.1MB 数据中台
集合了125份一线互联网大厂大数据、数据分析、数据仓库、数据中台方案与落地实践, 小米用户画像实战 腾讯 clickhouse实践 贝壳OLAP平台架构演进之路 快手大数据存储管理的落地实践 数据中台行业解决方案及案例 快手从模型规范开始的数据治理实践 网易大数据用户画像实践 阿里巴巴-大数据实践等等
医疗大数据实践实践之旅.pdf
2021-05-25 16:02:13 1.39MB 医疗大数据
◆泛终端:计算机、移动设备、虚拟化设备、物联设备等。 ◆泛终端大数据分析: 通过对泛终端相关的行为数据采集、存储、数据挖掘、机器 学习等技术,分析出终端的资源使用情况、系统安全情况、人员倾 向等行为,实现对政府、企业高效安全的管理,最终提供辅助决策。