科技
类型
可以朗读
语音朗读
204千字
字数
2023-03-01
发行日期
展开全部
主编推荐语
互联网大厂技术专家倾力之作,大数据学习者及从业者推荐读物。
内容简介
本书以HadoopHDFS为载体,介绍了构建一款分布式系统(尤其是存储方向)所需的核心技术,所有内容均基于当前较新的3.3.x/3.4.x版本,分别从理论和实践两个维度逐一阐述。
本书主要包括两篇:核心原理篇介绍了HDFS的诞生历史、元数据及Block管理、节点间通信机制、读写数据流程和高可用实现原理等;拓展与实践篇从实际出发,充分考虑了用户在应用过程中会遇到的痛点,详细介绍了集群拓展方法、数据分层存储、集群维护与多租户实施等实践经验。
本书各章节都配有必要的流程图和原理分析图,便于读者阅读理解,并精选了非常有用的实际案例及拓展知识。
目录
- 版权信息
- 前言
- 第1篇 核心原理篇
- 第1章 HDFS历史延展
- 1.1 分布式与文件系统
- 1.1.1 分布式文件系统部署架构
- 1.1.2 系统性能的影响因素
- 1.2 HDFS设计及实现思想
- 1.2.1 HDFS发展历史
- 1.2.2 HDFS特性
- 1.2.3 HDFS服务视图
- 1.2.4 HDFS架构
- 1.3 小结
- 第2章 元数据架构
- 2.1 内存Tree设计
- 2.1.1 Namenode介绍
- 2.1.2 Namenode启动
- 2.1.3 meta视图
- 2.1.4 FsDirectory和INodeMap
- 2.1.5 文件维护
- 2.2 FsImage和Edit Log
- 2.2.1 FsImage分析
- 2.2.2 Edit Log分析
- 2.3 meta更新
- 2.3.1 内存结构Update
- 2.3.2 拓展:锁优化
- 2.4 小结
- 第3章 数据管理
- 3.1 Namespace
- 3.1.1 Namespace概况
- 3.1.2 Namenode与Namespace
- 3.1.3 DataNode与Namespace
- 3.2 Slave节点
- 3.2.1 Heartbeat机制
- 3.2.2 FsDataset和DataStorage
- 3.2.3 DataNode检查器
- 3.2.4 存储类型
- 3.2.5 拓展:NVDIMM
- 3.3 Topology(Rack)Awareness
- 3.3.1 Topology Awareness在分布式存储中的意义
- 3.3.2 Topology Awareness在HDFS中实现
- 3.3.3 Topology改进
- 3.4 小结
- 第4章 Block与副本
- 4.1 理解Block
- 4.1.1 Block构成解析
- 4.1.2 副本存储解析
- 4.2 Block状态管理
- 4.2.1 UnderConstruction
- 4.2.2 Committed
- 4.2.3 Complete
- 4.2.4 UnderRecovery
- 4.2.5 Block状态小结
- 4.3 副本状态管理
- 4.3.1 RBW
- 4.3.2 finalized
- 4.3.3 RWR
- 4.3.4 RUR
- 4.3.5 Temporary
- 4.3.6 副本状态小结
- 4.4 Block管理
- 4.4.1 无效Block
- 4.4.2 损坏Block
- 4.4.3 缺失与冗余Block
- 4.4.4 Block Recovery
- 4.5 副本策略
- 4.5.1 位置策略
- 4.5.2 选盘(Volume)策略
- 4.5.3 选盘策略改进
- 4.6 小结
- 第5章 通信与访问
- 5.1 HDFS RPC
- 5.1.1 Protocol Buffers介绍
- 5.1.2 RPC架构
- 5.1.3 非幂等访问
- 5.2 文件写入
- 5.2.1 数据包(packet)与Pipeline
- 5.2.2 数据写入
- 5.2.3 Lease管理与pipeline Recovery
- 5.3 数据访问
- 5.3.1 文件读剖析
- 5.3.2 short-circuit
- 5.3.3 读写策略改进
- 5.4 小结
- 第6章 HA和QJM
- 6.1 HA发展路径
- 6.2 Quorum Journal Manager
- 6.2.1 分布式一致性原理
- 6.2.2 Edit共享存储系统
- 6.2.3 QJM架构设计
- 6.2.4 Edit Recovery
- 6.3 HA原理
- 6.3.1 ZKFC解析
- 6.3.2 HA隔离机制
- 6.3.3 Multi-Standby特性
- 6.3.4 HA优化及改进
- 6.4 小结
- 第7章 缓存
- 7.1 分布式系统缓存设计
- 7.1.1 本地缓存
- 7.1.2 分布式缓存
- 7.2 集中式缓存管理
- 7.2.1 原理介绍
- 7.2.2 缓存调度
- 7.2.3 DataNode缓存原理
- 7.2.4 Cache&Uncache场景
- 7.3 缓存实践场景及改进
- 7.3.1 实践场景介绍
- 7.3.2 集中式缓存V2
- 7.4 小结
- 第2篇 拓展与实践篇
- 第8章 集群拓展
- 8.1 水平拓展
- 8.1.1 水平拓展策略及实践
- 8.1.2 Router-Based Federation
- 8.2 垂直伸缩
- 8.2.1 垂直伸缩策略及实践
- 8.2.2 HDFS Quotas
- 8.3 多Namespace业务规划
- 8.4 小结
- 第9章 数据分层
- 9.1 存储分层的意义
- 9.2 HDFS存储分层
- 9.2.1 冷热集群分层管理
- 9.2.2 异构分层存储
- 9.2.3 动态感知数据类型
- 9.3 纠删码(Erasure Coding)
- 9.3.1 EC使用介绍
- 9.3.2 常见EC算法介绍
- 9.3.3 EC读写解析
- 9.4 数据迁移
- 9.4.1 DistCp迁移
- 9.4.2 FastCopy迁移
- 9.5 小结
- 第10章 监控、多租户和数据湖
- 10.1 大数据监控
- 10.1.1 基础设施监控采集
- 10.1.2 故障自愈
- 10.2 多租户与认证
- 10.2.1 多租户存储规划
- 10.2.2 基于Kerberos的认证
- 10.2.3 基于Delegation Token的认证
- 10.3 HDFS与Data Lakes
- 10.4 小结
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。