展开全部

主编推荐语

本书适合Java大数据开发人员快速掌握Hadoop技术。

内容简介

本书基于Hadoop 3.3.0,覆盖Hadoop、HBase、Hive的核心概念、实践应用、程序开发等方面的内容,帮你快速解决大数据是什么和怎么用的问题,书中还利用Docker来部署Hadoop分布式集群,让你同时学会4种流行的技术。

本书共9章,主要内容包括Hadoop概述、HDFS原理详解、Yarn原理详解、Hadoop系统配置、高可用Hadoop配置、HDFS编程、MapReduce编程、Hive实战、HBase实战。

本书从案例入手、通俗易懂,能使读者在短时间内迅速掌握Hadoop大数据技术。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1章 概述
  • 1.1 什么是大数据
  • 1.1.1 大数据系统的定位
  • 1.1.2 与传统分布式系统的区别
  • 1.1.3 成功的大数据系统项目
  • 1.2 Hadoop的原理
  • 1.2.1 存储与资源调度
  • 1.2.2 计算框架原理
  • 1.3 总结
  • 第2章 HDFS原理详解
  • 2.1 主从节点架构
  • 2.2 数据冗余
  • 2.3 fsimage与edits
  • 2.4 SecondaryNameNode
  • 2.5 HA
  • 2.6 自动故障转移
  • 2.7 ZooKeeper
  • 2.8 防脑裂
  • 2.9 联邦
  • 2.10 总结
  • 第3章 Yarn原理详解
  • 3.1 概述
  • 3.2 作业调度策略
  • 3.2.1 容量调度器
  • 3.2.2 公平调度器
  • 3.2.3 队列其他事项
  • 3.3 Yarn与MapReduce程序
  • 第4章 配置Hadoop系统
  • 4.1 Docker简介
  • 4.2 安装Docker
  • 4.2.1 Windows、macOS做宿主系统
  • 4.2.2 Linux做宿主系统
  • 4.2.3 测试Docker容器
  • 4.3 创建Hadoop容器
  • 4.4 配置独立模式Hadoop
  • 4.5 配置伪分布Hadoop
  • 4.5.1 安装并配置SSH
  • 4.5.2 安装其他命令行程序
  • 4.5.3 编辑core-site.xml
  • 4.5.4 编辑hdfs-site.xml
  • 4.5.5 编辑mapred-site.xml
  • 4.5.6 编辑yarn-site.xml
  • 4.5.7 编辑hadoop-env.sh
  • 4.5.8 运行伪分布式Hadoop
  • 4.5.9 状态监控
  • 4.6 基于Dockerfile的伪分布Hadoop
  • 4.6.1 Dockerfile
  • 4.6.2 构建Hadoop镜像
  • 4.6.3 运行容器
  • 4.6.4 配置Hadoop
  • 4.7 配置全分布式Hadoop
  • 4.7.1 组件部署架构
  • 4.7.2 配置思路
  • 4.7.3 修改配置文件
  • 4.7.4 创建集群
  • 4.7.5 启动集群
  • 4.8 Windows下运行Hadoop
  • 4.8.1 配置独立模式Hadoop
  • 4.8.2 配置伪分布式Hadoop
  • 4.9 Yarn调度配置
  • 4.9.1 容量调度器
  • 4.9.2 公平调度器
  • 第5章 配置高可用Hadoop
  • 5.1 HDFS高可用
  • 5.1.1 组件部署架构
  • 5.1.2 修改配置文件
  • 5.1.3 创建镜像
  • 5.1.4 创建HA HDFS集群
  • 5.1.5 运行HA HDFS
  • 5.1.6 测试HA HDFS
  • 5.1.7 NameNode自动故障转移
  • 5.2 Yarn高可用
  • 第6章 HDFS编程
  • 6.1 安装开发工具
  • 6.1.1 安装Git
  • 6.1.2 安装Maven
  • 6.1.3 安装VSCode
  • 6.1.4 安装VSCode插件
  • 6.2 Native编程
  • 6.2.1 创建HDFS客户端项目
  • 6.2.2 示例1:查看目录状态
  • 6.2.3 添加依赖库
  • 6.2.4 运行程序
  • 6.2.5 示例2:创建目录和文件
  • 6.2.6 示例3:读取文件内容
  • 6.2.7 示例4:上传和下载文件
  • 6.3 WebHDFS与HttpFS
  • 6.3.1 WebHDFS
  • 6.3.2 VSCode插件RestClient
  • 6.3.3 HttpFS
  • 第7章 MapReduce编程
  • 7.1 准备测试环境与创建项目
  • 7.2 添加MapReduce逻辑
  • 7.2.1 添加Map类
  • 7.2.2 添加Reduce类
  • 7.3 创建Job
  • 7.4 添加依赖库
  • 7.5 运行程序
  • 7.6 查看运行日志
  • 7.7 在Hadoop中运行程序
  • 7.8 Combiner
  • 7.9 Mapper与Reducer数量
  • 7.10 实现SQL语句
  • 7.10.1 简单查询
  • 7.10.2 排序
  • 7.10.3 复杂排序
  • 7.10.4 分区
  • 7.10.5 组合
  • 7.10.6 总结
  • 7.11 实现SQL JOIN
  • 7.11.1 INNER JOIN
  • 7.11.2 MapReduce实现JOIN
  • 7.11.3 Mapper JOIN
  • 7.11.4 DistributedCache
  • 7.12 Counter
  • 7.13 其他组件
  • 7.14 升级版的WordCount
  • 7.15 分布式k-means
  • 7.15.1 Mapper类
  • 7.15.2 Reducer类
  • 7.15.3 执行任务的方法
  • 7.15.4 辅助类
  • 7.15.5 运行
  • 7.15.6 MapReduce深入剖析
  • 第8章 Hive
  • 8.1 Hive的设计架构
  • 8.2 运行架构
  • 8.3 安装配置Hive3
  • 8.3.1 安装依赖软件
  • 8.3.2 创建Hive镜像Dockerfile
  • 8.3.3 创建docker-compose.yml
  • 8.3.4 Hadoop配置调整
  • 8.3.5 为Hive准备数据库
  • 8.4 运行Hive3
  • 8.5 其他运行方式
  • 8.5.1 MetaStore单独运行
  • 8.5.2 嵌入Meta数据库
  • 8.5.3 HiveServer2与beeline合体
  • 8.6 Hive数据管理
  • 8.6.1 基本操作
  • 8.6.2 Hive表
  • 8.6.3 数据倾斜
  • 8.7 Hive查询优化
  • 8.8 索引
  • 8.9 HCatalog
  • 8.10 Hive编程
  • 8.10.1 JDBC操作Hive
  • 8.10.2 自定义函数
  • 8.11 总结
  • 第9章 HBase
  • 9.1 什么是HBase
  • 9.2 HBase架构
  • 9.3 安装与配置
  • 9.3.1 独立模式运行
  • 9.3.2 伪分布模式
  • 9.3.3 全分布模式
  • 9.4 基本数据操作
  • 9.4.1 表管理
  • 9.4.2 添加数据
  • 9.4.3 修改数据
  • 9.4.4 获取数据
  • 9.4.5 删除数据
  • 9.5 HBase设计原理
  • 9.5.1 Region
  • 9.5.2 定位数据
  • 9.5.3 数据存储模型
  • 9.5.4 快速写的秘密
  • 9.5.5 快速读的秘密
  • 9.5.6 合并StoreFile
  • 9.5.7 Region拆分与合并
  • 9.5.8 故障恢复
  • 9.5.9 总结
  • 9.6 HBase应用编程
  • 9.6.1 Java API访问HBase
  • 9.6.2 使用扫描过滤器
  • 9.6.3 MapReduce访问HBase表
  • 9.7 总结
  • 后记
展开全部

评分及书评

评分不足
2个评分
  • 用户头像
    给这本书评了
    2.0
    有点粗,适合初步了解

    感觉作者基础不扎实

      转发
      评论

    出版方

    清华大学出版社

    清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。