展开全部

主编推荐语

带你了解大数据计算平台Hadoop设计与开发的必备知识。

内容简介

本书主要内容包括:第1章初识Hadoop、第2章Hadoop基础、第3章Hadoop开发环境配置与搭建、第4章Hadoop分布式文件系统(HDFS)、第5章资源管理器(Yarn)、第6章MapReduce基础程序设计、第7章MapReduce程序设计、第8章分布式数据库HBase、第9章分布式数据仓库Hive、第10章项目测试与发布。

目录

  • 版权信息
  • 编委会
  • 内容提要
  • 丛书序一
  • 丛书序二
  • 前言
  • 第1章 初识Hadoop
  • 1.1 为什么要学习Hadoop
  • 1.1.1 信息化项目衍生过程
  • 1.1.2 Hadoop产生过程
  • 1.1.3 Hadoop成功案例介绍
  • 1.2 Hadoop与云计算的关系
  • 1.2.1 什么是云计算
  • 1.2.2 云计算演进历史
  • 1.2.3 云计算相关技术介绍
  • 1.2.4 Hadoop在云项目中扮演的角色
  • 1.3 Hadoop与大数据的关系
  • 1.3.1 什么是大数据
  • 1.3.2 大数据的存储结构
  • 1.3.3 大数据的计算模式
  • 1.3.4 Hadoop在大数据中扮演的角色
  • 1.4 学习Hadoop需要具备的知识基础
  • 1.5 学习Hadoop需要的实验环境
  • 1.6 Hadoop的用途
  • 1.7 小结
  • 第2章 Hadoop基础知识
  • 2.1 Hadoop简介
  • 2.1.1 Apache Hadoop项目核心模块
  • 2.1.2 Apache Hadoop项目的其他模块
  • 2.2 Hadoop版本演化
  • 2.3 RPC工作原理
  • 2.3.1 RPC简介
  • 2.3.2 Hadoop中的RPC
  • 2.3.3 RPCoIB和JVM—旁路缓冲管理方案:在高性能网络InfiniBand上数据交换的改进
  • 2.4 MapReduce工作原理
  • 2.4.1 MapReduce计算模型
  • 2.4.2 MapReduce经典案例
  • 2.4.3 MapReduce应用场景
  • 2.5 Hadoop改进
  • 2.5.1 LATE算法:良好的适应异构性环境
  • 2.5.2 Mantri:MapReduce异常处理
  • 2.5.3 SkewTune:MapReduce中数据偏斜处理
  • 2.5.4 基于RDMA的MapReduce设计:提升大数据应用的性能和规模
  • 2.6 HDFS工作原理
  • 2.6.1 HDFS介绍
  • 2.6.2 HDFS体系结构
  • 2.6.3 文件系统的命名空间
  • 2.6.4 HDFS中Block副本放置策略
  • 2.6.5 HDFS机架感知
  • 2.6.6 HDFS安全模式
  • 2.6.7 HDFS应用场景介绍
  • 2.6.8 混合HDFS的设计:充分利用硬件能力获得最佳性能
  • 2.7 YARN工作原理
  • 2.7.1 YARN on HDFS的工作原理
  • 2.7.2 MapReduce on YARN的工作原理
  • 2.8 容错机制
  • 2.9 安全性
  • 2.10 小结
  • 第3章 Hadoop开发环境配置与搭建
  • 3.1 集群部署
  • 3.1.1 安装包版本的选择
  • 3.1.2 Hadoop安装先决条件
  • 3.1.3 Hadoop安装模式
  • 3.2 本地/独立模式搭建
  • 3.2.1 JDK安装与配置
  • 3.2.2 SSH无密码登录
  • 3.2.3 Hadoop本地环境参数配置
  • 3.2.4 Hadoop本地模式验证
  • 3.3 伪分布模式搭建
  • 3.3.1 配置过程
  • 3.3.2 格式化HDFS
  • 3.3.3 Hadoop进程启停与验证
  • 3.4 全分布模式搭建
  • 3.4.1 Hadoop网络配置
  • 3.4.2 Hadoop集群SSH配置
  • 3.4.3 时间同步
  • 3.4.4 IP与机器名映射
  • 3.4.5 Hadoop环境配置
  • 3.4.6 Hadoop集群启停与验证
  • 3.5 基于Hadoop平台的Eclipse开发环境的搭建
  • 3.5.1 Hadoop Eclipse插件配置
  • 3.5.2 编写第一个MapReduce程序
  • 3.5.3 编译打包及运行程序
  • 3.6 小结
  • 第4章 Hadoop分布式文件系统
  • 4.1 HDFS工作原理
  • 4.1.1 HDFS读数据的过程
  • 4.1.2 HDFS写数据的过程
  • 4.1.3 HDFS删除与恢复数据的过程
  • 4.2 HDFS常用命令行操作概述
  • 4.2.1 HDFS命令行
  • 4.2.2 HDFS常用命令行操作
  • 4.3 通过Web浏览HDFS文件
  • 4.4 HDFS API
  • 4.4.1 使用FileSystem API读取数据命令行
  • 4.4.2 使用FileSystem API写入数据命令行
  • 4.4.3 FileUtil文件处理
  • 4.5 小结
  • 第5章 Hadoop的I/O操作
  • 5.1 压缩
  • 5.1.1 Hadoop压缩类型
  • 5.1.2 CompressionCodec接口
  • 5.1.3 CompressionCodecFactory类
  • 5.1.4 压缩池
  • 5.1.5 Hadoop中使用压缩
  • 5.2 I/O序列化类型
  • 5.2.1 Writable接口
  • 5.2.2 Java基本类型的Writable封装器
  • 5.2.3 IntWritable与VIntWritable类
  • 5.2.4 Text类
  • 5.2.5 BytesWritable类
  • 5.2.6 NullWritable类
  • 5.2.7 ObjectWritable类
  • 5.2.8 自定义Writable接口
  • 5.3 基于文件的数据结构
  • 5.3.1 SequenceFile
  • 5.3.2 MapFile
  • 5.4 小结
  • 第6章 MapReduce编程基础
  • 6.1 剖析MapReduce编程过程
  • 6.2 由WordCount理解MapReduce编程过程
  • 6.2.1 准备工作
  • 6.2.2 Mapper工作过程
  • 6.2.3 Reducer工作过程
  • 6.2.4 Job工作过程
  • 6.3 MapReduce类型
  • 6.4 Mapper输入
  • 6.4.1 默认输入格式
  • 6.4.2 FileInput输入
  • 6.4.3 多路径输入
  • 6.4.4 自定义输入分片
  • 6.5 Shuffle
  • 6.5.1 Shuffle运行原理
  • 6.5.2 分区
  • 6.5.3 排序
  • 6.5.4 分组
  • 6.6 Combiner
  • 6.6.1 由WordCount案例讲解Combiner
  • 6.6.2 由SVG案例进一步讲解Combiner
  • 6.7 OutputFormat输出
  • 6.8 编程模型的扩展——FlumeJava:云计算高级编程模型
  • 6.8.1 FlumeJava结构
  • 6.8.2 FlumeJava优化
  • 6.9 小结
  • 第7章 MapReduce高级编程
  • 7.1 计数器
  • 7.1.1 内置计数器
  • 7.1.2 自定义计数器
  • 7.1.3 计数器结果查看
  • 7.2 最值
  • 7.2.1 单一最值
  • 7.2.2 Top N
  • 7.3 全排序
  • 7.3.1 全排序业务需求
  • 7.3.2 实验数据准备
  • 7.3.3 自定义分区实现全排序过程
  • 7.3.4 通过抽样实现全排序过程
  • 7.4 二次排序
  • 7.4.1 解决方案
  • 7.4.2 例子
  • 7.5 连接
  • 7.5.1 Reduce端连接
  • 7.5.2 Map端连接
  • 7.6 小结
  • 第8章 初识HBase
  • 8.1 HBase基础知识
  • 8.1.1 HBase特征
  • 8.1.2 HBase数据模型
  • 8.1.3 HBase体系结构
  • 8.2 HBase开发环境配置与安装
  • 8.2.1 HBase环境配置基本准备条件
  • 8.2.2 HBase配置文件
  • 8.2.3 HBase独立安装
  • 8.2.4 HBase伪分布式安装
  • 8.2.5 HBase完全分布式安装
  • 8.2.6 HBase启动、停止、监控
  • 8.3 HBase基本Shell操作
  • 8.3.1 HBase Shell启动
  • 8.3.2 HBase Shell通用命令
  • 8.3.3 HBase Shell表管理命令
  • 8.3.4 HBase Shell表操作命令
  • 8.3.5 HBase Shell应用举例
  • 8.4 基于HBase API程序设计
  • 8.4.1 管理表结构
  • 8.4.2 管理表信息
  • 8.4.3 Scan
  • 8.4.4 过滤器
  • 8.4.5 协处理器
  • 8.4.6 计数器
  • 8.4.7 MapReduce与HBase互操作
  • 8.5 RowKey设计
  • 8.5.1 HBase值的存储与读取的特点
  • 8.5.2 HBase值存储特点引发的问题
  • 8.5.3 RowKey设计遵循的原则
  • 8.6 HBase的高性能设计:使用InfiniBand的RDMA
  • 8.6.1 设计
  • 8.6.2 优势
  • 8.7 小结
  • 第9章 初识Hive
  • 9.1 Hive基础知识
  • 9.1.1 Hive的存储结构
  • 9.1.2 Hive与传统数据库的比较
  • 9.2 Hive环境安装
  • 9.2.1 Hive内嵌模式安装
  • 9.2.2 Hive独立模式安装
  • 9.2.3 Hive远程模式安装
  • 9.2.4 初识Hive Shell
  • 9.2.5 Java通过JDBC对Hive操作
  • 9.3 HiveQL基本语法
  • 9.3.1 Hive中的数据库
  • 9.3.2 创建表的基本语法
  • 9.3.3 表中数据的加载
  • 9.3.4 HiveQL的数据类型
  • 9.3.5 数据类型转换
  • 9.3.6 文本文件数据编码
  • 9.3.7 分区和桶
  • 9.3.8 表维护
  • 9.4 HiveQL基本查询
  • 9.4.1 SELECT…FROM语句
  • 9.4.2 WHERE语句
  • 9.4.3 嵌套SELECT语句
  • 9.4.4 Hive函数
  • 9.4.5 GROUP BY语句
  • 9.4.6 JOIN语句
  • 9.4.7 UNION ALL语句
  • 9.4.8 ORDER BY和SORT BY语句
  • 9.4.9 含有SORT BY的DISTRIBUTE BY语句
  • 9.4.10 CLUSTER BY语句
  • 9.5 视图和索引
  • 9.5.1 视图
  • 9.5.2 索引
  • 9.6 Hive与HBase集成
  • 9.7 小结
  • 附录 《Hadoop集群程序设计与开发》配套实验课程方案简介
展开全部

评分及书评

评分不足
1个评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。