基于hadoop的一些基本操作
2022-06-30 16:04:51 12KB hadoop javaapi
自学资料,sparkcore
2022-06-30 14:06:12 64.98MB hadoop spark
1
用于Hadoop搭建安装包
2022-06-30 12:04:24 288.89MB hadoop
1
DataGrip连接Hive 2.1.1所需Jar包整理
2022-06-29 18:53:17 29.58MB Hive hadoop DataGrip
1
实验内容与完成情况: 1. 使用IntelliJ IDEA工具开发WordCount程序 在Linux操作系统中安装IntelliJ IDEA,然后使用IntelliJ IDEA工具开发WordCount程序,并打包成JAR包,提交到Flink中运行。 安装Flink并启动: 安装maven: 使用IntelliJ IDEA写java: 使用maven打包JAR包 运行JAR包结果: 2. 数据流词频统计 使用Linux操作系统自带的NC程序模拟生成数据流,不断产生单词并发送出去。编写Fink程序对NC程序发来的单词进行实时处理,计算词频,并输出词频统计结果。要求首先在IntelliJ IDEA中开发和调试程序,然后打包成JAR包部署到Flink中运行。 使用IntelliJ IDEA写java: 运行NC并输入数据: 运行JAR包:
2022-06-29 09:11:35 2.46MB 大数据实验报告 hadoop Flink 大数据
为了提高大数据环境下的数据挖掘速度,对分布式计算构架Hadoop进行分析与研究,提出一种基于Hadoop平台的大数据关联规则挖掘算法MRPrePost。该算法在PrePost算法基础上改进而来,采用Hadoop平台降低分布式编程的难度且易于管理,通过一种自底向上的深度优化策略改进PrePost算法,降低内存开销,同时采用负载均衡的分组策略,来提高并行算法的性能,最终试验表明,该算法运行速度快,适应大数据关联规则挖掘。
1
随着移动智能操作系统技术的突破,智能手机的普及,移动互联网时代的到来,web app每天都在产生TB甚至PB级的web日志,如何从这些海量日志信息中提取用户的个人爱好及其他信息,为用户提供个性化推荐服务,为人们的生活带来便利,成为各大互联网公司和科研机构研究人员的研究热点。由于开源云计算平台Hadoop的出现,解决海量web日志信息的数据挖掘成为可能。 本文的研究内容主要包含以下几个方面: 一、对Hadoop云计算平台进行研究。Hadoop是Apache下的顶级开源项目,该平台能够利用成千上万的廉价计算机提供并行计算与存储服务。本文主要深入研究了Hadoop平台下的HDFS分布式文件系统,并行编程模型MapReduce,分布式列型存储数据库HBase。 二、对聚类分析进行研究。聚类分析是数据挖掘中应用极为广泛的一类,本文主要研究了聚类分析的起源、定义和样本相似距离,并详细介绍了聚类分析的常用方法。 三、基于Hadoop平台,设计并实现了数据挖掘系统,.,系统封装了底层的Hadoop系统接口,提供了本文介绍的几种聚类算法服务。系统自顶向下的逻辑层次分别为用户层、服务引擎层、挖掘引擎层、底层Hadoop驱动层。 四、研究分析了K-Means和PAM聚类算法
2022-06-28 21:06:42 9.23MB Hadoop 数据挖掘 算法
1
hudi-hadoop-mr-bundle-0.11.0.jar 配合文档
2022-06-28 19:05:50 35.47MB hudi-hadoop-mr-b
1
本文件内容适用于学习Hadoop时所需配置Hive的所有文件,包括以下内容: apache-hive-2.0.0-bin.tar.gz hive-site.xml my.cnf .txt mysql-community-client-5.7.18-1.el7.x86_64.rpm mysql-community-common-5.7.18-1.el7.x86_64.rpm mysql-community-libs-5.7.18-1.el7.x86_64.rpm mysql-community-server-5.7.18-1.el7.x86_64.rpm mysql-connector-java-5.1.46.jar Hive配置文件收集不易,有部分配置内容已单独复制出来! 希望大家点个收藏点个赞,谢谢大家!
2022-06-28 14:06:14 321.68MB hive hadoop 虚拟机
1
本文件内容适用于学习Hadoop时所需配置HBase的所有文件,包括以下内容: hbase-1.2.1-bin.tar.gz hbase-site.xml.txt 配置文件收集不易,有部分配置内容已单独复制出来! 希望大家点个收藏点个赞,谢谢大家!
2022-06-28 14:06:11 103.03MB hbase hadoop 虚拟机
1