本文来自博客园,由火龙果软件Anna编辑、推荐。1.1.1流数据说明在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序。1.1.2模拟器代码 1.1.3生成打包文件【注】可以参见第3课《Spark编程模型(下)--IDEA搭建及实战》进行打包在打包配置界面中,需要在ClassPath加入:/app/scala-2.10.4/lib/scala-swing.jar/app/scala-2.10.4/li
1
Hive以及安装文档等
2022-05-14 14:06:18 110.05MB hive 综合资源 hadoop 数据仓库
1
hadoop2.6.5以及安装文档
2022-05-14 14:06:13 148.53MB 综合资源 hadoop
1
计算机网络技术已逐步被应用于社会各个领域,使得各行业的现代化管理水平得到不断提高。以传统模式为主的档案工作对档案信息的查找效率低下,不能满足对档案信息获取日渐增加的需求。Hadoop的出现无疑为提高档案管理水平创造了有利条件。基于Hadoop的企业档案信息共享系统作为众多管理信息系统的一个分支,既具有管理信息系统的基本特征,又符合了档案管理的特点。本系统运用SSH框架管理实现,运行良好,功能划分合理,操作简单方便,信息提示友好。该档案信息共享系统能很好的提供基本档案服务,降低管理成本,提高档案管理效率。
2022-05-14 12:59:18 541KB Hadoop 大数据 毕业论文
1
hadoop-ha搭建
2022-05-14 09:07:25 4.85MB hadoop 综合资源 大数据 big
1
hadoop生态圈所用到的组件,hadoop、hbase、kafka、spark、sqoop、zookeeper。远程连接服务器的Xshell和远程传送文件到服务器的Xftp。
2022-05-13 14:08:48 872.14MB hbase zookeeper hadoop kafka
CDH是Apache Hadoop和相关项目的最完整,经过测试的流行发行版。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于Web的用户界面和重要的企业功能。 CDH是Apache许可的开放源码,是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。 Cloudera作为一个强大的商业版数据中心管理工具,提供了各种能够快速稳定运行的数据计算框架,如Apache Spark;使用Apache Impala做为对HDFS,HBase的高性能SQL查询引擎;也带了Hive数据仓库工具帮助用户分析数据; 用户也能用Cloudera管理安装HBase分布式列式NoSQL数据库;Cloudera还包含了原生的Hadoop搜索引擎以及Cloudera Navigator Optimizer去对Hadoop上的计算任务进行一个可视化的协调优化,提高运行效率;同时Cloudera中提供的各种组件能让用户在一个可视化的UI界面中方便地管理,配置和监控Hadoop以及其它所有相关组件,并有一定的容错容灾处理;Cloudera作为一个广泛使用的商业版数据中心管理工具更是对数据的安全决不妥协! CDH 提供: 灵活性 - 存储任何类型的数据,并使用各种不同的计算框架进行处理,包括批处理,交互式SQL,自由文本搜索,机器学习和统计计算。 集成 - 在一个可与广泛的硬件和软件解决方案配合使用的完整Hadoop平台上快速启动并运行。 安全 - 过程和控制敏感数据。 可扩展性 - 启用广泛的应用程序并进行扩展和扩展,以满足您的需求。 高可用性 - 充满信心地执行关键业务任务。 兼容性 - 利用您现有的IT基础设施和资源。
2022-05-13 12:21:24 6.18MB hadoop
1
hive练习使用脚本 利用hadoop运行脚本实现hive的创建、导入、查询
2022-05-13 09:06:43 862KB hive hadoop 源码软件 数据仓库
1
大数据spark实验报告包含实验过程
2022-05-13 09:06:36 9.2MB big data spark 文档资料
1
只为分享,共同进步,hadoop入门必备电子文档,作者hadoop开发社区资深元老Tom White
2022-05-12 20:58:30 187.96MB hadoop
1