Framework-Of-BigData 大数据面试题,从0到1走向架构师之路。Flink、Spark、Hive、HBase、Hadoop、Kettle、Kafka... 每周日更新 项目系列 一、大数据项目 面试系列 优秀文章目录 一、Hadoop HDFS是如何设计架构的 最新Hadoop面试题总结 二、Flink 十分钟入门Fink SQL Flink SQL——Table与DataStream之间的互转(超详细) Flink SQL Sink(文件、kafka、Stream) 一文章带你深入了解Flink SQL流处理中的特殊概念(超详细) 一文章让深入理解Flink SQL 时间特性(超详细) 一文章带你深入理解FlinkSQL中的窗口(三种模式) Flink系统自带函数与自定义UDF(超详细) 那些被问懵的Flink面试题(Flink面试急需) Flink 自定义Avro序列化
2021-11-24 17:12:11 145.33MB
1
包括Hadoop、Hive、Hbase、Java、Spring、Redis、Kafka等内容
2021-11-24 17:08:28 10.21MB Hadoop Hive Hbase Redis
1
集群硬件配置 在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的Datanode/TaskTracker的硬件规格可以采用以下方案: 16-24GB内存 千兆以太网 NameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务,因此需要更多的RAM,与集群中的数据块数量相对应,并且需要优化RAM的内存通道带宽,采用双通道或三通道以上内存。硬件规格可以采用以下方案: 16-72GB内存 千兆/万兆以太网 SecondaryNameNode在小型集群中可以和NameNode共用一台机器,较大的群集可以采用与NameNode相同的硬件
2021-11-13 21:10:47 3.06MB Hadoop Hive Spark Hbase
1
适用于hive-1.2.1与hbase-1.3.1版本适配。用于打通hbase与hive之间的屏障,避免重新编译jar包所带来的麻烦。
2021-11-10 11:40:40 104KB hive 大数据
1
一个WordCount执行过程的实例 Map过程示意图
2021-11-08 20:01:02 3.06MB Hadoop Hive Spark Hbase
1
MartinHub的学习笔记 关于我 MartinHub :smiling_face_with_sunglasses: ,,热爱生活!热爱技术! 微信公众号【MartinHub】 个人微信号【MartinHub】 项目介绍 大数据 Java 数据库 Linux 杂记 :bullseye: :hot_beverage: :floppy_disk: :cloud: :memo: :black_nib:本仓库有来源自己总结,网上收集,视频笔记,如果有区别之处,可以联系我进行删除。 :scroll:笔记仓库: GitHub上: Gitee: :scroll:笔记地址: GitHub上: Gitee: 因个人能力有限,笔记中可能还有很多错误的地方,还请大家能够多多指出交流,也欢迎各位小伙伴能够提交拉请求请求进行完善。 注意:因为构建页面的框架缓存,访问笔记地址时,为防止最新更新的笔记看不到,请浏览器打开网址后,先清除页面缓存。
2021-10-30 16:21:25 18MB HTML
1
通过Sqoop+Hive+Hbase+Kettle+R一系列软件的简单实用和操作来帮助读者理解这些软件的用法
2021-10-27 19:00:36 1.43MB sqoop hive hbase kettle
1
etl-kettle-web etl, kettle, web, 1、参考了: 2、基于该项目,将kettle的web网页版本升级为springboot工程。 3、欢迎有兴趣的小伙伴,一起讲前端改造成vue.js 4、有兴趣的也可以直接修改并提交代码,或联系qq:406419768
2021-10-22 10:40:45 4.3MB Java
1
数据网 DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的操作界面,减少用户使用DataX的学习成本,更改任务配置时间,避免配置过程中出错。用户可以通过页面选择数据源即可创建数据同步任务,支持RDBMS,Hive,HBase,ClickHouse,MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl -job可根据时间,自增主键增量同步数据。 任务“执行器”支持部署,支持执行器多字节路由策略选择,支持超时控制,失败重试,失败中断,任务依赖,执行器CPU。内存。负载的监控等等。后续提供更多的数据源支持,数据转换UDF,表结构同步,数据同步血缘等更复杂的业务场景。 架构图: 系统要求 语言:Java 8(jdk版本建议1.8.201以上) Python2.7(支持Python3需要修改
2021-10-20 11:47:29 19.53MB Java
1
HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat 问题的补丁,替换jars文件夹下的对应jar包即可,版本spark2.1
2021-07-29 11:32:33 1.17MB spark hive hbase
1