├─01_讲义 │ Day16[Hbase 企业应用及与MapReduce集成].pdf ├─02_视频 │ Day1601_Hbase Java API-环境配置.mp4 │ Day1603_Hbase Java API-put、delete.mp4 │ Day1604_Hbase Java API-Scan和过滤器.mp4 │ Day1605_Hbase与MapReduce集成-环境变量的配置.mp4 │ Day1610_Hbase与MapReduce集成-Bulk Load.mp4 │ Day1611_Hbase与Sqoop集成使用.mp4 │ Day1612_Hbase完全分布式集群的部署配置.mp4 ├─03_笔记 │ Day16[Hbase 企业应用及与MapReduce集成].txt ├─04_代码 ├─06_配置 └─08_作业 Day16[Hbase 企业应用及与MapReduce集成].docx
2022-04-17 21:04:53 246.81MB 大数据开发 HBase MapReduce Sqoop
大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第9期_MapReduce初级案例 共43页.pdf
2022-04-16 18:08:46 1.07MB 云计算 big data 学习
mapduce日志分析数据
2022-04-16 18:08:44 1.07MB mapreduce
1
实验(一)数值概要—中位数与标准差 检查实验环境、运行示例程序。 利用数据概要完成中位数与标准差计算。 数据集可以采用Ctrip数据集,计算内容可自定义。 实验(二):MapReduce计数器实验 在给定数据集上完成计数实验,可以用ctrip数据集或50w数据集。 实验(三):MapReduce布隆过滤器的舆情过滤 按指定的热点词列表训练布隆过滤器,对舆情数据集进行过滤,过滤后的数据写入HDFS。 实验(四)StackOverflow数据集的分层操作 构建StackOverflow数据集中问题与回复的分层结构,将贴子与回复关联起来。 实验(五): Reduce端连接 用利ctrip数据集,将product_info 与quantity数据集进行连接操作,连接的字段为product_id。
2022-04-16 18:08:42 999KB mapreduce big data 大数据
(实践一)数值概要中combiner的作用 在前述数值概要的运用中,加入不同的combiner,测试不同环境下系统的性能,并给出分析、说明。 检查在内存优化模式下系统性能的区别。 (实践二)计算器计数 模式描述、计数器结构及性能分析。 示例:计算每个州的用户数 (实践三)MapReduce 布隆过滤器 过滤器训练、过滤器应用、结果验证及分析 (实践四)MapReduce Top 10模式示例 在ctrip数据集上进行Top 10排序。 (实践五)去重的用户—针对ctrip数据集去重 对ctrip数据集中的product-id进行去重操作
2022-04-16 18:08:41 2.28MB mapreduce big data 大数据
1. 创建MySQL数据表emp,将数据输入表中 2. 利用Sqoop将emp表导入HDFS 3. 利用分层模式创建自连接的XML文件,格式为 Manager clerk clerk 4. 提交报告 word文件。
2022-04-16 09:06:38 551KB mapreduce big data 大数据
MapReduce_BankData 步骤 先运行Clean_Zh.java,在本地处理中文的问题。 使用命令行将已处理的文件传到HDFS(这一步没写在代码里,偷了个懒) 再运行Main.java 通达信数据原始数据 原始数据第二行的中文 和最后268行的中文,采用的GB2312编码,程序运行时产生乱码,导致不明BUG,其BUG造成的乱码,使行号数不对,且乱码无法参与代码的逻辑运算, 这个错十分的坑,故将中文删除。问题解决 删掉中文后,运行结果 中文乱码处理(问题解决) 不管是转utf8还是gb2312都是对文件的操作!但是在mapreduce机制里,他对文件的操作是自动完成的,我们用户接触到的已经是文件中每一行的具体内容了。这个时候由于原始文件的编码问题,每一行涉及中文的已经是乱码了,此时对这个乱码不管怎么转始终是乱码。 所以,因为我们无法在mapreduce的文件层面进行操作,那就只有
2022-04-14 22:21:57 852KB Java
1
案例的作用是根据根据每个用户发的多条微博 得到词条在当前用户中的权重,以方便我们推荐相对应的内容或广告
2022-04-11 21:08:37 68KB mapreduce 内容广告推荐
1
K-means算法处理海量数据时,易产生系统内存溢出的现象。利用MapReduce框架改进K-means虽然解决了这个问题,但也存在着聚类效果不稳定以及准确率不高等问题,提出一种改进算法,利用MapReduce框架实现K-means时,采用多次随机抽样,通过计算密度、距离与平方误差等方法,最终选取较优的初始聚类中心,并在迭代中采用新的中心点计算方法。实验结果证明,改进后的算法具有较好的稳定性、准确性和加速比。
2022-04-07 14:54:55 630KB 论文研究
1
MapReduce 使用 Hadoop 实现随机过采样、随机欠采样和“合成少数过采样技术”(SMOTE)算法 大数据的随机过采样:MapReduce 的近似 随机过采样 (ROS) 算法已适应于遵循 MapReduce 设计来处理大数据,其中每个 Map 进程负责通过少数类实例的随机复制来调整映射器分区中的类分布,Reduce 进程负责收集每个映射器生成的输出以形成平衡数据集。 该过程如图 1 所示,包括四个步骤:初始、映射、缩减和最终。 图 1:ROS MapReduce 设计如何工作的流程图。 大数据的随机欠采样:按照MapReduce程序选择样本 适用于处理大数据的随机欠采样 (RUS) 版本遵循 MapReduce 设计,其中每个 Map 进程负责按类对其数据分区中的所有实例进行分组,Reduce 进程负责收集每个映射器的输出并平衡通过随机消除多数类实例来形成平衡数据集的类分布。
2022-04-07 14:50:47 501KB Java
1