电子商务中会产生海量的数据,蕴含着不可估量的数据价值,可通过数据分析来挖掘这些潜在价值,以提升平台的销量。本次实践项目利用 Hadoop 的分布式计算框架 MapReduce 来分析用户行为数据,计算得出商品点击排行、商品分类占比等统计指标,使得更加熟练掌握 MapReduce 程序的设计。 相关理论知识有,Map 和 Reduce 流程图如下:输入数据(INPUT)首先分割(SPLIT)成若干份,然后每份分别进行 MAP 过程;中间再经过 COMBINE 任务(可选)和 PARTTION 对 MAP 所得的结果进行聚合——把同 key 的结果放到同一组,最后再进行 REDUCE 过程。
2022-12-31 12:22:06 4.19MB 电子商务 大数据 Hadoop MapReduce
1
Hadoop mapreduce 实现InvertedIndexer倒排索引,能用。
2022-12-30 10:34:30 7KB Hadoop mapreduce 倒排索引
1
hive环境安装所需软件包
2022-12-28 14:24:06 894MB 大数据
1
hbase的Rowkey设计⽅案 1.1 hbase的概述 的概述 HBase由于其存储和读写的⾼性能,在OLAP即时分析中越来越发挥重要的作⽤。作为Nosql数据库的⼀员,HBase查询只能通过其 Rowkey来查询(Rowkey⽤来表⽰唯⼀⼀⾏记录),Rowkey设计的优劣直接影响读写性能。 由于HBase是通过Rowkey查询的,⼀般Rowkey上都会存⼀些⽐较关键的检索信息,我们需要提前想好数据具体需要如何查询,根据查询 ⽅式进⾏数据存储格式的设计,要避免做全表扫描,因为效率特别低。 此外易观⽅⾈也使⽤HBase做⽤户画像的标签存储⽅案,存储每个app的⽤户的⼈⼝学属性和商业属性等标签信息。 HBase中设计有MemStore和BlockCache,分别对应列族/Store级别的写⼊缓存,和RegionServer级别的读取缓存。如果RowKey过 长,缓存中存储数据的密度就会降低,影响数据落地或查询效率。 1.2 hbase的设计原则以及解决⽅法 的设计原则以及解决⽅法 1.3 预分区 预分区 1.3.1 什么是预分区 什么是预分区 HBase表在刚刚被创建时,只有1个分区(
2022-12-26 19:16:20 332KB 文档资料
1
hive的Linux安装包,hive0.13.1的Linux下的tgz包,可用于集群安装
2022-12-25 23:20:08 51.73MB hive
1
第一部分、详细介绍了分布式数据库和Hbase的发展由来,基本原理,应用场景。第二部分,对Hbase进行基本的概述,主要介绍其中基本原理,第三部分对Hbase的技术进行详解,包括关键成员和技术优化。第四部分,通过一个小的java api案例,介绍Hbase的开发使用,详细分析hbase的应用场景和优化方式。
2022-12-25 18:59:01 5.76MB 大数据 Hbase Nosql 列式存储
1
远程模式部署Hive时,mysql连接驱动jar包,需先进行解压,解压后文件夹内压缩包即为用到的压缩包,全称为mysql-connector-java-5.1.32.jar
2022-12-21 14:25:40 896KB hive hadoop
1
MapReduce的大体流程是这样的,如图所示:由图片可以看到mapreduce执行下来主要包含这样几个步骤1.首先对输入数据源进行切片2.master调度worker执行map任务3.worker读取输入源片段4.worker执行map任务,将任务输出保存在本地5.master调度worker执行reduce任务,reduceworker读取map任务的输出文件6.执行reduce任务,将任务输出保存到HDFS若对流程细节进行深究,可以得到这样一张流程图从生命周期的角度来看,mapreduce流程大概经历这样几个阶段:初始化、分配、执行、反馈、成功与失败的后续处理每个阶段所做的事情大致如下1
2022-12-20 17:19:00 149KB MapReduce执行流程
1
hive和mysql的安装
2022-12-19 09:16:21 10KB hive mysql
1
flinkcdc写入到iceberg中,hive读取iceberg时所需要的运行环境
2022-12-18 17:23:03 22.02MB iceberg hive
1