"大数据开发基础知识点"
大数据开发基础知识点是指在大数据开发过程中使用到的各种技术和概念。这些技术和概念构成了大数据开发的基础,涵盖了数据存储、数据处理、数据分析和数据可视化等方面。
1. HDFS的HA是指高可用性(High Availability),即使某个节点出现故障,也不会影响整个系统的运行。
2. YARN(Yet Another Resource Negotiator)是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。
3. Hive是构建在Hadoop之上的数据仓库工具,提供了类SQL的查询语言,用于数据分析和报表生成。
4. Sqoop是一种数据ETL工具,用于在关系型数据库、数据仓库等多种数据源与Hadoop存储系统之间进行高效批量数据传输。
5. Spark是一种基于内存的分布式计算框架,用于构建大型的、低延迟的数据分析应用程序。
6. 在大数据中,常见的数据类型有结构化数据、非结构化数据和半结构化数据。
7. 大数据是指数量级别为PB(Petabyte)及以上的数据集合。
8. HDFS的核心组件是NameNode和DataNode。
9. 集群的各节点会被分配到不同的机架上,以方便管理和提高集群的容错性。
10. HDFS的数据块大小默认为128MB。
11. NameNode上存储的元数据信息不包括HDFS文件的真实数据。
12. DataNode通过发送心跳将block信息报告给NameNode。
13. 客户端、NameNode节点和DataNode节点之间的通信都是基于RPC(Remote Procedure Call)的。
14. 在大数据处理过程中,磁盘读写通常是集群的主要瓶颈。
15. 虚拟机有三种网络连接模式。
16. 执行hostname命令,可以查看CentOS系统当前的主机名。
17. 在ZooKeeper集群中,不属于角色的选项是NameNode。
18. 通过ZooKeeper管理两个或多个NameNode时,一个NameNode须为active状态。
19. 一般可以通过验证校验和的方式来检查数据的完整性。
20. Hadoop主要采用的序列化格式是Writable。
21. 在Hadoop常用的文件压缩格式中,支持切分的是bzip2。
22. 不属于Writable集合类的是SortedMapWritable。
23. 序列化和反序列化之间有必然联系,序列化是将对象转化为便于传输的格式,而反序列化是把字节序列恢复为对象的过程。
24. MapReduce充分体现了“分而治之”的思想,即把一个复杂的任务拆分成小的任务并行处理,从而提高了任务的处理速度。
25. 对于某些简单的数据处理任务,只需要执行Map任务就够了。
这些知识点涵盖了大数据开发的基础概念和技术,包括数据存储、数据处理、数据分析和数据可视化等方面,为大数据开发提供了坚实的基础。
2024-07-01 20:51:11
221KB
1