可以朗读
语音朗读
222千字
字数
2021-09-01
发行日期
展开全部
主编推荐语
本书适合Java大数据开发人员快速掌握Hadoop技术。
内容简介
本书基于Hadoop 3.3.0,覆盖Hadoop、HBase、Hive的核心概念、实践应用、程序开发等方面的内容,帮你快速解决大数据是什么和怎么用的问题,书中还利用Docker来部署Hadoop分布式集群,让你同时学会4种流行的技术。
本书共9章,主要内容包括Hadoop概述、HDFS原理详解、Yarn原理详解、Hadoop系统配置、高可用Hadoop配置、HDFS编程、MapReduce编程、Hive实战、HBase实战。
本书从案例入手、通俗易懂,能使读者在短时间内迅速掌握Hadoop大数据技术。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 概述
- 1.1 什么是大数据
- 1.1.1 大数据系统的定位
- 1.1.2 与传统分布式系统的区别
- 1.1.3 成功的大数据系统项目
- 1.2 Hadoop的原理
- 1.2.1 存储与资源调度
- 1.2.2 计算框架原理
- 1.3 总结
- 第2章 HDFS原理详解
- 2.1 主从节点架构
- 2.2 数据冗余
- 2.3 fsimage与edits
- 2.4 SecondaryNameNode
- 2.5 HA
- 2.6 自动故障转移
- 2.7 ZooKeeper
- 2.8 防脑裂
- 2.9 联邦
- 2.10 总结
- 第3章 Yarn原理详解
- 3.1 概述
- 3.2 作业调度策略
- 3.2.1 容量调度器
- 3.2.2 公平调度器
- 3.2.3 队列其他事项
- 3.3 Yarn与MapReduce程序
- 第4章 配置Hadoop系统
- 4.1 Docker简介
- 4.2 安装Docker
- 4.2.1 Windows、macOS做宿主系统
- 4.2.2 Linux做宿主系统
- 4.2.3 测试Docker容器
- 4.3 创建Hadoop容器
- 4.4 配置独立模式Hadoop
- 4.5 配置伪分布Hadoop
- 4.5.1 安装并配置SSH
- 4.5.2 安装其他命令行程序
- 4.5.3 编辑core-site.xml
- 4.5.4 编辑hdfs-site.xml
- 4.5.5 编辑mapred-site.xml
- 4.5.6 编辑yarn-site.xml
- 4.5.7 编辑hadoop-env.sh
- 4.5.8 运行伪分布式Hadoop
- 4.5.9 状态监控
- 4.6 基于Dockerfile的伪分布Hadoop
- 4.6.1 Dockerfile
- 4.6.2 构建Hadoop镜像
- 4.6.3 运行容器
- 4.6.4 配置Hadoop
- 4.7 配置全分布式Hadoop
- 4.7.1 组件部署架构
- 4.7.2 配置思路
- 4.7.3 修改配置文件
- 4.7.4 创建集群
- 4.7.5 启动集群
- 4.8 Windows下运行Hadoop
- 4.8.1 配置独立模式Hadoop
- 4.8.2 配置伪分布式Hadoop
- 4.9 Yarn调度配置
- 4.9.1 容量调度器
- 4.9.2 公平调度器
- 第5章 配置高可用Hadoop
- 5.1 HDFS高可用
- 5.1.1 组件部署架构
- 5.1.2 修改配置文件
- 5.1.3 创建镜像
- 5.1.4 创建HA HDFS集群
- 5.1.5 运行HA HDFS
- 5.1.6 测试HA HDFS
- 5.1.7 NameNode自动故障转移
- 5.2 Yarn高可用
- 第6章 HDFS编程
- 6.1 安装开发工具
- 6.1.1 安装Git
- 6.1.2 安装Maven
- 6.1.3 安装VSCode
- 6.1.4 安装VSCode插件
- 6.2 Native编程
- 6.2.1 创建HDFS客户端项目
- 6.2.2 示例1:查看目录状态
- 6.2.3 添加依赖库
- 6.2.4 运行程序
- 6.2.5 示例2:创建目录和文件
- 6.2.6 示例3:读取文件内容
- 6.2.7 示例4:上传和下载文件
- 6.3 WebHDFS与HttpFS
- 6.3.1 WebHDFS
- 6.3.2 VSCode插件RestClient
- 6.3.3 HttpFS
- 第7章 MapReduce编程
- 7.1 准备测试环境与创建项目
- 7.2 添加MapReduce逻辑
- 7.2.1 添加Map类
- 7.2.2 添加Reduce类
- 7.3 创建Job
- 7.4 添加依赖库
- 7.5 运行程序
- 7.6 查看运行日志
- 7.7 在Hadoop中运行程序
- 7.8 Combiner
- 7.9 Mapper与Reducer数量
- 7.10 实现SQL语句
- 7.10.1 简单查询
- 7.10.2 排序
- 7.10.3 复杂排序
- 7.10.4 分区
- 7.10.5 组合
- 7.10.6 总结
- 7.11 实现SQL JOIN
- 7.11.1 INNER JOIN
- 7.11.2 MapReduce实现JOIN
- 7.11.3 Mapper JOIN
- 7.11.4 DistributedCache
- 7.12 Counter
- 7.13 其他组件
- 7.14 升级版的WordCount
- 7.15 分布式k-means
- 7.15.1 Mapper类
- 7.15.2 Reducer类
- 7.15.3 执行任务的方法
- 7.15.4 辅助类
- 7.15.5 运行
- 7.15.6 MapReduce深入剖析
- 第8章 Hive
- 8.1 Hive的设计架构
- 8.2 运行架构
- 8.3 安装配置Hive3
- 8.3.1 安装依赖软件
- 8.3.2 创建Hive镜像Dockerfile
- 8.3.3 创建docker-compose.yml
- 8.3.4 Hadoop配置调整
- 8.3.5 为Hive准备数据库
- 8.4 运行Hive3
- 8.5 其他运行方式
- 8.5.1 MetaStore单独运行
- 8.5.2 嵌入Meta数据库
- 8.5.3 HiveServer2与beeline合体
- 8.6 Hive数据管理
- 8.6.1 基本操作
- 8.6.2 Hive表
- 8.6.3 数据倾斜
- 8.7 Hive查询优化
- 8.8 索引
- 8.9 HCatalog
- 8.10 Hive编程
- 8.10.1 JDBC操作Hive
- 8.10.2 自定义函数
- 8.11 总结
- 第9章 HBase
- 9.1 什么是HBase
- 9.2 HBase架构
- 9.3 安装与配置
- 9.3.1 独立模式运行
- 9.3.2 伪分布模式
- 9.3.3 全分布模式
- 9.4 基本数据操作
- 9.4.1 表管理
- 9.4.2 添加数据
- 9.4.3 修改数据
- 9.4.4 获取数据
- 9.4.5 删除数据
- 9.5 HBase设计原理
- 9.5.1 Region
- 9.5.2 定位数据
- 9.5.3 数据存储模型
- 9.5.4 快速写的秘密
- 9.5.5 快速读的秘密
- 9.5.6 合并StoreFile
- 9.5.7 Region拆分与合并
- 9.5.8 故障恢复
- 9.5.9 总结
- 9.6 HBase应用编程
- 9.6.1 Java API访问HBase
- 9.6.2 使用扫描过滤器
- 9.6.3 MapReduce访问HBase表
- 9.7 总结
- 后记
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。