展开全部

主编推荐语

基于全新的Hadoop 3.x,主要分析Hadoop 3.2.0的新特性和新功能,以企业级真实案例详细解读,带你全方位掌握大数据处理分析、分布式计算等。

内容简介

本书主要分析Hadoop 3.2.0的新特性和新功能,共5章。

首先简单介绍Hadoop,让刚接触Hadoop的读者对它有个基本了解;接着介绍目前使用比较多的分布式文件系统HDFS,内容涉及NameNode的原理、HA、HDFS Federation和HDFS 3.0中新增的特性;然后从应用管理和资源调度这两个方面介绍一个通用的资源管理平台YARN;再后讨论如何在YARN平台中运行应用,比如如何将应用迁移到YARN平台,以及非Hadoop的应用是如何兼容YARN模式的。最后,书中给出了一些工作实战指南,包括如何搭建一个生产可用的Hadoop 3.0集群;如何将现有Hadoop 2.0集群升级到Hadoop 3.0,及其在升级过程中遇到的问题;如何针对Hadoop进行二次开发,并参与社区,向社区贡献代码;一个大数据平台应具备哪些必备组件等。

目录

  • 版权信息
  • 前言
  • 第1章 Hadoop
  • 1.1 简介
  • 1.1.1 Hadoop 1.0
  • 1.1.2 Hadoop 2.0
  • 1.2 Hadoop 3.0
  • 1.3 阅读Hadoop源码
  • 1.3.1 单元测试
  • 1.3.2 断点调试代码
  • 1.4 小结
  • 第2章 HDFS
  • 2.1 HDFS简介
  • 2.2 解析NameNode中的元数据及其内存结构
  • 2.2.1 解析NameNode中的元数据
  • 2.2.2 解析NameNode的内存结构
  • 2.3 解析NameNode的HA功能
  • 2.3.1 基于QJM的HA
  • 2.3.2 故障转移
  • 2.3.3 多NameNode模式
  • 2.4 HDFS的Federation
  • 2.4.1 基于viewfs的Federation
  • 2.4.2 基于Router的Federation
  • 2.5 纠删码
  • 2.5.1 纠删码的原理
  • 2.5.2 HDFS EC
  • 2.5.3 HDFS EC的实现
  • 2.5.4 对比HDFS EC策略与三副本策略
  • 2.6 下一代对象存储系统Ozone
  • 2.6.1 Ozone初体验
  • 2.6.2 Ozone架构
  • 2.7 小结
  • 第3章 YARN
  • 3.1 YARN简介
  • 3.2 解析ResourceManager的HA功能
  • 3.2.1 故障转移
  • 3.2.2 数据恢复
  • 3.3 YARN Federation
  • 3.3.1 架构
  • 3.3.2 Router
  • 3.3.3 State Store和Policy Store
  • 3.3.4 AMRMProxy
  • 3.3.5 跨子集群运行
  • 3.4 中央调度器
  • 3.4.1 Capacity调度器
  • 3.4.2 Fair调度器
  • 3.4.3 调度扩展
  • 3.5 分布式调度器
  • 3.5.1 分布式调度器的架构
  • 3.5.2 opportunistic container
  • 3.6 YARN Shared Cache
  • 3.6.1 资源本地化
  • 3.6.2 Shared Cache的架构
  • 3.6.3 Shared Cache实例
  • 3.7 小结
  • 第4章 Application on YARN
  • 4.1 MapReduce的简介
  • 4.2 MapReduce的源码分析
  • 4.2.1 InputSplit
  • 4.2.2 环形缓冲区
  • 4.2.3 溢写和归并
  • 4.2.4 Shuffle
  • 4.3 MapReduce on YARN
  • 4.3.1 YARN的事件机制和状态机机制
  • 4.3.2 MR ApplicationMaster
  • 4.4 Application on YARN
  • 4.5 小结
  • 第5章 实战指南
  • 5.1 Hadoop 3.x 的部署
  • 5.1.1 Hadoop 3.x HA的部署
  • 5.1.2 Hadoop 3.x Federation的部署
  • 5.2 Hadoop升级
  • 5.2.1 Hadoop 2.0升级为Hadoop 3.0
  • 5.2.2 Hadoop 3.0降级为Hadoop 2.0
  • 5.2.3 升级/降级中遇到的问题
  • 5.3 二次开发
  • 5.3.1 与其他自研系统融合
  • 5.3.2 自身功能扩展之自动识别修复后的数据盘
  • 5.3.3 合并社区Patch
  • 5.3.4 提交Pull Request
  • 5.4 周边系统平台
  • 5.4.1 任务调度平台
  • 5.4.2 监控平台
  • 5.4.3 集群诊断分析平台
  • 5.5 小结
  • 作者简介
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    5.0

    Hadoop Doug Cutting 开发,最早起源于 Nutch,灵感来自于谷歌发表的两篇论文,随后成为 Apache 的顶级项目,同时迎来它的黄金时代。Hadoop 经过十多年不断的迭代和优化,已逐步成为大数据领域数据存储和计算的标准。在此期间,它经历了两次大的版本升级,这两次升级分别被称为 Hadoop 2.0 时代和 Hadoop 3.0 时代。

      转发
      1

    出版方

    人民邮电出版社

    人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。