熟悉常用的HDFS操作 (1) 理解HDFS在Hadoop体系结构中的角色; (2) 熟练使用HDFS操作常用的Shell命令; (3) 熟悉HDFS操作常用的Java API。
2021-06-19 22:57:25 419KB HDFS操作
1
英文原版论文pdf 1. 2003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,提供容错功能。从根本上说:文件被分割成很多块,使用冗余的方式储存于商用机器集群上。 2. 紧随其后的就是2004年公布的 MapReduce论文,论文描述了大数据的分布式计算方式,主要思想是将任务分解然后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。 3. 最后就是谷歌发布于2006年的Bigtable,其启发了无数的NoSQL数据库,比如:Cassandra、HBase等等。Cassandra架构中有一半是模仿Bigtable,包括了数据模型、SSTables以及提前写日志(另一半是模仿Amazon的Dynamo数据库,使用点对点集群模式)。
1
Hadoop分布式文件系统翻译
2021-05-27 13:37:11 1.18MB Hadoop 译文
1
第3章-分布式文件系统HDFS.docx
2021-05-25 21:01:21 8.61MB 大数据
1
fastdfs基于http协议的分布式文件系统源码,基于go和js,它具有高性能、高可靠、无中心、免维护等优点。 ### 大家担心的是这么简单的文件系统,靠不靠谱,可不可以用于生产环境?答案是肯定的,正因为简单所以高效,因为简单所以稳定。 注意:使用 - 支持curl命令上传 - 支持浏览器上传 - 支持HTTP下载 - 支持多机自动同步 - 支持断点下载 - 支持配置自动生成 - 支持小文件自动合并(减少inode占用) - 支持秒传 - 支持跨域访问 - 支持一键迁移(搬迁) - 支持异地备份(特别是小文件1M以下) - 支持并行体验 - 支持断点续传([tus](https://tus.io/)) - 支持docker部署 - 支持自监控告警 - 支持图片缩放 - 支持google认证码 - 支持自定义认证 - 支持集群文件信息查看 - 使用通用HTTP协议 - 无需专用客户端(支持wget,curl等工具) - 类fastdfs - 高性能 (使用leveldb作为kv库) - 高可靠(设计极其简单,使用成熟组件) - 无中心设计(所有节点都可以同时读写) # 优点 - 无依赖(单一文件) - 自动同步 - 失败自动修复 - 按天分目录方便维护 - 支持不同的场景 - 文件自动去重 - 支持目录自定义 - 支持保留原文件名 - 支持自动生成唯一文件名 - 支持浏览器上传 - 支持查看集群文件信息 - 支持集群监控邮件告警 - 支持小文件自动合并(减少inode占用) - 支持秒传 - 支持图片缩放 - 支持google认证码 - 支持自定义认证 - 支持跨域访问 - 极低资源开销 - 支持断点续传([tus](https://tus.io/)) - 支持docker部署 - 支持一键迁移(从其他系统文件系统迁移过来) - 支持异地备份(特别是小文件) - 支持并行体验(与现有的文件系统并行体验,确认OK再一键迁移) - 支持token下载 token=md5(file_md5+timestamp) - 运维简单,
FastDFS是一款分布式文件系统,功能主要包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了文件大容量存储和 高性能访问的问题。FastDFS特别适合以文件为载体的在线服务,如图片、视频、文档等等。 FastDFS作为一款轻量级分布式文件系统,版本V6.01代码量6.3万行。FastDFS用C语言实现,支持Linux、FreeBSD、MacOS等类UNIX系统。FastDFS类似google FS,属于应用级文件系统,不是通 用的文件系统,只能通过专有API访问,目前提供了C和Java SDK,以及PHP扩展SDK。FastDFS为互联网应用量身定做,解决大容量文件存储问题 ,追求高性能和高扩展性。FastDFS可以看做是基于文件的key value存储系统,key为文件ID,value为文件内容,因此称作分布式文件存储服务更 为合适。 FastDFS的架构比较简单,如下图所示: ![architect](images/architect.png) FastDFS特点如下: 1)分组存储,简单灵活; 2)对等结构,不存在单点; 3)文件ID由FastDFS生成,作为文件访问凭证。FastDFS不需要传统的name server或meta server; 4)大 、中、小文件均可以很好支持,可以存储海量小文件; 5)一台storage支持多块磁盘,支持单盘数据恢复; 6)提供了nginx扩展模块,可 以和nginx无缝衔接; 7)支持多线程方式上传和下载文件,支持断点续传; 8)存储服务器上可以保存文件附加属性。
分布式文件系统概述,内容涉及发展历史、系统架构、共享语义、共享锁、访问接口、元数据服务模型、数据分布模式、系统扩展性、系统可用性、cache一致性和典型案例。
2021-05-23 22:11:24 1.24MB 分布式文件系统
1
GlusterFS分布式文件系统群集资源.rar
2021-05-15 15:04:10 459.72MB GlusterFS分布式文件系统
1
分布式文件系统架构说明 - fastdfs-client(FastDFS 客户端) fastdfs提供的java客户端api,java相关功能都基于这个基础上封装,扩展,第三方应用不需要关心该接口. - fastdfs-core(HTTP服务器) 基于spring boot实现,提供http接口服务. 提供http服务器信息获取,http上传,http下载,删除上报,该服务会记录文件的基本信息,其中服务器信息获取,上传上报都由fastdfs-app自动完成,第三方应用不需要关心. - fastdfs-app(Apply SDK) 初始化 APIConfigure config = new APIConfigure("appKey", "httpServerUrl"); DFSAppClient.instance().initAPIConfigure(config); 实现执行初化操作,从fastdfs-core获取trackers服务器信息,及appKey对应的groupName, 这些动作都由SDK自动完成,第三方应用不需要关心. 上传文件 String fileId = DFSAppClient.instance().uploadFile(new File("文件绝对路径")); fileId:返回的fileId字符串,示例:group1/M00/00/00/wKgABFuOVJyEPGKEAAAAADUuUeE339.png fileId是后续对文件进行操作的基本参数,第三方应用拿到该值后应本地做好保存. 下载文件 FileOutputStream fos = new FileOutputStream(new File("文件绝对路径")); DFSAppClient.instance().downloadFile(fileId, fos, true); fileId:上传文件成功后返回的fileId字符串. 删除文件 int result = DFSAppClient.instance().deleteFile(fileId); fileId:上传文件成功后返回的fileId字符串. result:该方法会返回0表示删除成功,其他表示失败. fastdfs 下载示例说明 http://127.0.0.1:8808/dfs/v1/download?fileId=group1/M00/00/00/wKgABFuQ2PWEbNsOAAAAADUuUeE667.png&direct=true fileId:上传文件成功后返回的fileId字符串. direct:表示是否直接显示,非直接显示会提示下载,默认是非直接显示.
2021-05-10 11:02:55 159KB 分布式 文件系统 java
FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。
2021-05-06 20:31:31 1.42MB 分布式文件系
1