展开全部

主编推荐语

零基础学大数据:从环境搭建到HDFS、MapReduce、Spark等技术全面掌握。

内容简介

本书针对开发零基础的人群,采用案例或任务驱动的方式,由入门到精通,边讲解边练习。本课程从虚拟机、Linux操作命令、文件、进程、常用软件开始,带领大家搭建环境、重点学习HDFS、MapReduce、HBase、Zookeeper、大数据数据仓库Hive、离线处理辅助系统、内存计算框架Spark、Spark Core、Spark SQL、Spark Streaming等。

目录

  • 封面
  • 扉页
  • 版权信息
  • 目录
  • 内容提要
  • 大数据开发实战系列 编委会
  • 序言
  • 前言
  • 关于引用作品的版权声明
  • 第1章 Hadoop初体验
  • 任务1 初识大数据
  • 1.1.1 大数据基本概念
  • 1.1.2 大数据带来的挑战
  • 任务2 初识Hadoop
  • 1.2.1 Hadoop概述
  • 1.2.2 Hadoop生态圈
  • 1.2.3 Hadoop应用案例
  • 任务3 安装Hadoop平台
  • 1.3.1 安装虚拟机
  • 1.3.2 安装Linux系统
  • 1.3.3 安装Hadoop伪分布式环境
  • 本章总结
  • 本章练习
  • 第2章 Hadoop分布式文件系统
  • 任务1 HDFS入门
  • 2.1.1 认识HDFS
  • 2.1.2 HDFS基础
  • 2.1.3 HDFS架构
  • 任务2 HDFS基本操作
  • 2.2.1 使用HDFS shell访问
  • 2.2.2 使用Java API访问
  • 任务3 HDFS运行原理
  • 2.3.1 HDFS读写流程
  • 2.3.2 HDFS副本机制
  • 2.3.3 HDFS负载均衡
  • 2.3.4 HDFS机架感知
  • 任务4 HDFS高级知识
  • 2.4.1 Hadoop序列化机制
  • 2.4.2 Sequence File
  • 2.4.3 Map File
  • 本章总结
  • 本章练习
  • 第3章 Hadoop分布式计算框架
  • 任务1 认识Map Reduce编程模型
  • 3.1.1 Map Reduce基础
  • 3.1.2 Map Reduce编程模型
  • 3.1.3 Map Reduce词频统计编程实例
  • 任务2 Map Reduce应用开发
  • 3.2.1 Map Reduce输入/输出类型
  • 3.2.2 Map Reduce输入格式
  • 3.2.3 Map Reduce输出格式
  • 3.2.4 Combiner操作
  • 3.2.5 Partitioner操作
  • 3.2.6 自定义Record Reader
  • 任务3 Map Reduce高级应用
  • 3.3.1 使用Map Reduce实现join操作
  • 3.3.2 使用Map Reduce实现排序
  • 3.3.3 使用Map Reduce实现二次排序
  • 3.3.4 使用Map Reduce合并小文件
  • 本章总结
  • 本章练习
  • 第4章 Hadoop新特性
  • 任务1 初识YARN
  • 4.1.1 YARN产生背景
  • 4.1.2 YARN简介
  • 4.1.3 YARN架构设计
  • 任务2 了解HDFS新特性
  • 4.2.1 HDFS Name Node 高可用机制
  • 4.2.2 HDFS Name Node Federation
  • 4.2.3 HDFS Snapshots
  • 4.2.4 HDFS REST API
  • 4.2.5 Dist Cp工具
  • 任务3 了解YARN新特性
  • 4.3.1 Resource Manager自动重启
  • 4.3.2 Resource Manager高可用机制
  • 本章总结
  • 本章练习
  • 第5章 Hadoop分布式数据库
  • 任务1 认识HBase
  • 5.1.1 HBase简介
  • 5.1.2 HBase体系结构
  • 5.1.3 HBase数据模型
  • 5.1.4 HBase的安装
  • 任务2 HBase Shell操作
  • 5.2.1 HBase Shell简介
  • 5.2.2 HBase Shell的使用
  • 任务3 HBase编程
  • 5.3.1 开发HBase应用程序
  • 5.3.2 HBase数据存储管理API
  • 本章总结
  • 本章练习
  • 第6章 Hadoop综合实战——音乐排行榜
  • 任务1 Map Reduce与HBase的集成
  • 6.1.1 Map Reduce与HBase的集成环境
  • 6.1.2 批量数据导入(Bulk Loading)
  • 任务2 HBase Map Reduce API
  • 6.2.1 HBase Map Reduce API 简介
  • 6.2.2 Table Mapper的使用
  • 6.2.3 Table Reducer的使用
  • 任务3 实现音乐排行榜
  • 6.3.1 程序的结构与实现
  • 6.3.2 HBase数据库设计优化
  • 6.3.3 Map Reduce全局共享数据
  • 本章总结
  • 本章练习
  • 第7章 数据仓库Hive
  • 任务1 Hive基础
  • 7.1.1 认识Hive
  • 7.1.2 Hive架构设计
  • 7.1.3 Hive与Hadoop
  • 7.1.4 Hive与传统关系型数据库
  • 7.1.5 Hive数据存储模型
  • 7.1.6 Hive部署
  • 任务2 掌握Hive操作
  • 7.2.1 Hive DDL
  • 7.2.2 Hive DML
  • 7.2.3 Hive shell
  • 任务3 Hive高级应用
  • 7.3.1 Hive函数
  • 7.3.2 Hive调优策略
  • 本章总结
  • 本章练习
  • 第8章 大数据离线处理辅助系统
  • 任务1 认识并使用数据迁移框架Sqoop
  • 8.1.1 Sqoop简介
  • 8.1.2 使用Sqoop导入My SQL数据到HDFS
  • 8.1.3 使用Sqoop导出HDFS数据到My SQL
  • 8.1.4 使用Sqoop导入My SQL数据到Hive
  • 8.1.5 Sqoop Job
  • 任务2 使用Azkaban实现工作流调度
  • 8.2.1 Azkaban概述
  • 8.2.2 Azkaban环境部署
  • 8.2.3 Azkaban应用实例
  • 本章总结
  • 本章练习
  • 第9章 Spark基础
  • 任务1 Spark入门
  • 9.1.1 Spark简介
  • 9.1.2 Spark优势
  • 9.1.3 Spark生态圈
  • 任务2 Scala基础
  • 9.2.1 Scala简介
  • 9.2.2 Scala函数定义
  • 9.2.3 Scala面向对象操作
  • 9.2.4 Scala集合的使用
  • 9.2.5 Scala高阶函数
  • 任务3 编译Spark
  • 9.3.1 下载Spark源码
  • 9.3.2 编译Spark源码
  • 任务4 Spark初体验
  • 9.4.1 Spark环境部署
  • 9.4.2 spark-shell
  • 本章总结
  • 本章练习
  • 第10章 Spark Core
  • 任务1 Spark RDD
  • 10.1.1 RDD介绍
  • 10.1.2 RDD的创建
  • 10.1.3 RDD的转换算子
  • 10.1.4 RDD的动作算子
  • 10.1.5 RDD的依赖关系
  • 任务2 RDD高级应用
  • 10.2.1 RDD缓存机制
  • 10.2.2 共享变量
  • 10.2.3 Spark架构设计
  • 任务3 基于RDD的Spark应用程序开发
  • 10.3.1 准备工作
  • 10.3.2 词频计数实例
  • 10.3.3 年龄统计实例
  • 本章总结
  • 本章练习
  • 第11章 Spark SQL
  • 任务1 认识Spark SQL
  • 11.1.1 SQL
  • 11.1.2 SQL on Hadoop框架
  • 11.1.3 Spark SQL简介
  • 任务2 Spark SQL编程基础
  • 11.2.1 Spark SQL编程入口
  • 11.2.2 Data Frame基础
  • 11.2.3 Data Frame编程实例
  • 任务3 Spark SQL编程进阶
  • 11.3.1 Spark SQL操作外部数据源
  • 11.3.2 Spark SQL函数
  • 11.3.3 Spark SQL调优
  • 本章总结
  • 本章练习
  • 第12章 Spark Streaming
  • 任务1 流处理框架及Spark Streaming
  • 12.1.1 流处理框架简介
  • 12.1.2 Spark Streaming简介
  • 任务2 使用Spark Streaming编程
  • 12.2.1 Spark Streaming核心
  • 12.2.2 Spark Streaming编程实例
  • 任务3 Spark Streaming高级应用
  • 12.3.1 使用Spark Streaming整合Flume
  • 12.3.2 使用Spark Streaming整合Kafka
  • 12.3.3 Spark Streaming优化策略
  • 本章总结
  • 本章练习
  • 附录
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。