删除了删除了删除了删除了删除了删除了删除了删除了删除了删除了
2022-04-04 18:36:20 116B hadoop hive spark 大数据
1
当前,所有应用到大数据的公司都需要建设企业数据仓库,以服务于数据分析和为企业决策、产品优化、产品运营等提供稳定可靠的数据支持,因此,数据仓库的建设在公司数据的E(抽取)、T(转化)、L(加载)流程中起到至关重要的地位。 本项目将数仓分为三层,分别是ODS层(贴源层)、DW层(数仓层)和APP层(应用层),其中DW层中包含事实层、维度层、宽表层,为了达到拿空间换时间的目的,由事实层中的事实表和维度层的维度表关联形成宽表层。
2022-03-28 14:31:42 5.78MB hadoop hive  数仓框架
1
基于Hadoop+Hive的数据查询优化设计与实现
2022-03-10 10:33:31 2.67MB Hadoop Hive
1
利用Hive进行复杂用户行为大数据分析及优化案例(全套视频+课件+代码+讲义+工具软件),具体内容包括: 01_自动批量加载数据到hive 02_Hive表批量加载数据的脚本实现(一) 03_Hive表批量加载数据的脚本实现(二) 04_HIve中的case when、cast及unix_timestamp的使用 05_复杂日志分析-需求分析 06_复杂日志分析-需求字段讲解及过滤 07_复杂日志分析-字段提取及临时表的创建 08_复杂日志分析-指标结果的分析实现 09_Hive中数据文件的存储格式介绍及对比 10_常见的压缩格式及MapReduce的压缩介绍 11_Hadoop中编译配置Snappy压缩 12_Hadoop及Hive配置支持snappy压缩 13_Hive中的常见调优 14_Hive中的数据倾斜及解决方案-三种join方式 15_Hive中的数据倾斜及解决方案-group by 16_Hive中使用正则加载数据 17_Hive中使用Python脚本进行预处理
2022-02-21 22:06:13 28.25MB Hadoop Hive 大数据 性能调优
前言        本来将数据导入到hive,但是不知道什么原因太慢了,一小时200条数据,优化一波kettle,还是成效不大,因此改为借用hadoop file output 到hdfs,然后再load 到hive表里 一,正文 1.在转换里拖入big data/hadoop file output      新建hadoop cluster连接      从集群里下载core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml      覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-co
2022-01-28 15:52:57 180KB hadoop hive iv
1
启动大数据框架常用命令
2022-01-25 09:13:14 8KB hive kafka big data
1
Linux 搭建Hive链接mysql教程 适用搭建hadoop,配置环境使用
2022-01-05 18:00:38 622.61MB hadoop hive hdfs linux
1
CDH6.3.2所有安装包+配套博客教程地址
2021-12-20 15:08:40 201B cdh hadoop hive mysql
大数据练手项目——Youtube数据源
2021-12-15 16:33:02 120.9MB hadoop hive youtube data
1
网站点击流数据分析项目,用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。
2021-12-07 10:19:34 41.77MB hadoop hive flume sqoop
1