计算机
类型
可以朗读
语音朗读
333千字
字数
2018-02-01
发行日期
展开全部
主编推荐语
零基础学大数据:从环境搭建到HDFS、MapReduce、Spark等技术全面掌握。
内容简介
本书针对开发零基础的人群,采用案例或任务驱动的方式,由入门到精通,边讲解边练习。本课程从虚拟机、Linux操作命令、文件、进程、常用软件开始,带领大家搭建环境、重点学习HDFS、MapReduce、HBase、Zookeeper、大数据数据仓库Hive、离线处理辅助系统、内存计算框架Spark、Spark Core、Spark SQL、Spark Streaming等。
目录
- 封面
- 扉页
- 版权信息
- 目录
- 内容提要
- 大数据开发实战系列 编委会
- 序言
- 前言
- 关于引用作品的版权声明
- 第1章 Hadoop初体验
- 任务1 初识大数据
- 1.1.1 大数据基本概念
- 1.1.2 大数据带来的挑战
- 任务2 初识Hadoop
- 1.2.1 Hadoop概述
- 1.2.2 Hadoop生态圈
- 1.2.3 Hadoop应用案例
- 任务3 安装Hadoop平台
- 1.3.1 安装虚拟机
- 1.3.2 安装Linux系统
- 1.3.3 安装Hadoop伪分布式环境
- 本章总结
- 本章练习
- 第2章 Hadoop分布式文件系统
- 任务1 HDFS入门
- 2.1.1 认识HDFS
- 2.1.2 HDFS基础
- 2.1.3 HDFS架构
- 任务2 HDFS基本操作
- 2.2.1 使用HDFS shell访问
- 2.2.2 使用Java API访问
- 任务3 HDFS运行原理
- 2.3.1 HDFS读写流程
- 2.3.2 HDFS副本机制
- 2.3.3 HDFS负载均衡
- 2.3.4 HDFS机架感知
- 任务4 HDFS高级知识
- 2.4.1 Hadoop序列化机制
- 2.4.2 Sequence File
- 2.4.3 Map File
- 本章总结
- 本章练习
- 第3章 Hadoop分布式计算框架
- 任务1 认识Map Reduce编程模型
- 3.1.1 Map Reduce基础
- 3.1.2 Map Reduce编程模型
- 3.1.3 Map Reduce词频统计编程实例
- 任务2 Map Reduce应用开发
- 3.2.1 Map Reduce输入/输出类型
- 3.2.2 Map Reduce输入格式
- 3.2.3 Map Reduce输出格式
- 3.2.4 Combiner操作
- 3.2.5 Partitioner操作
- 3.2.6 自定义Record Reader
- 任务3 Map Reduce高级应用
- 3.3.1 使用Map Reduce实现join操作
- 3.3.2 使用Map Reduce实现排序
- 3.3.3 使用Map Reduce实现二次排序
- 3.3.4 使用Map Reduce合并小文件
- 本章总结
- 本章练习
- 第4章 Hadoop新特性
- 任务1 初识YARN
- 4.1.1 YARN产生背景
- 4.1.2 YARN简介
- 4.1.3 YARN架构设计
- 任务2 了解HDFS新特性
- 4.2.1 HDFS Name Node 高可用机制
- 4.2.2 HDFS Name Node Federation
- 4.2.3 HDFS Snapshots
- 4.2.4 HDFS REST API
- 4.2.5 Dist Cp工具
- 任务3 了解YARN新特性
- 4.3.1 Resource Manager自动重启
- 4.3.2 Resource Manager高可用机制
- 本章总结
- 本章练习
- 第5章 Hadoop分布式数据库
- 任务1 认识HBase
- 5.1.1 HBase简介
- 5.1.2 HBase体系结构
- 5.1.3 HBase数据模型
- 5.1.4 HBase的安装
- 任务2 HBase Shell操作
- 5.2.1 HBase Shell简介
- 5.2.2 HBase Shell的使用
- 任务3 HBase编程
- 5.3.1 开发HBase应用程序
- 5.3.2 HBase数据存储管理API
- 本章总结
- 本章练习
- 第6章 Hadoop综合实战——音乐排行榜
- 任务1 Map Reduce与HBase的集成
- 6.1.1 Map Reduce与HBase的集成环境
- 6.1.2 批量数据导入(Bulk Loading)
- 任务2 HBase Map Reduce API
- 6.2.1 HBase Map Reduce API 简介
- 6.2.2 Table Mapper的使用
- 6.2.3 Table Reducer的使用
- 任务3 实现音乐排行榜
- 6.3.1 程序的结构与实现
- 6.3.2 HBase数据库设计优化
- 6.3.3 Map Reduce全局共享数据
- 本章总结
- 本章练习
- 第7章 数据仓库Hive
- 任务1 Hive基础
- 7.1.1 认识Hive
- 7.1.2 Hive架构设计
- 7.1.3 Hive与Hadoop
- 7.1.4 Hive与传统关系型数据库
- 7.1.5 Hive数据存储模型
- 7.1.6 Hive部署
- 任务2 掌握Hive操作
- 7.2.1 Hive DDL
- 7.2.2 Hive DML
- 7.2.3 Hive shell
- 任务3 Hive高级应用
- 7.3.1 Hive函数
- 7.3.2 Hive调优策略
- 本章总结
- 本章练习
- 第8章 大数据离线处理辅助系统
- 任务1 认识并使用数据迁移框架Sqoop
- 8.1.1 Sqoop简介
- 8.1.2 使用Sqoop导入My SQL数据到HDFS
- 8.1.3 使用Sqoop导出HDFS数据到My SQL
- 8.1.4 使用Sqoop导入My SQL数据到Hive
- 8.1.5 Sqoop Job
- 任务2 使用Azkaban实现工作流调度
- 8.2.1 Azkaban概述
- 8.2.2 Azkaban环境部署
- 8.2.3 Azkaban应用实例
- 本章总结
- 本章练习
- 第9章 Spark基础
- 任务1 Spark入门
- 9.1.1 Spark简介
- 9.1.2 Spark优势
- 9.1.3 Spark生态圈
- 任务2 Scala基础
- 9.2.1 Scala简介
- 9.2.2 Scala函数定义
- 9.2.3 Scala面向对象操作
- 9.2.4 Scala集合的使用
- 9.2.5 Scala高阶函数
- 任务3 编译Spark
- 9.3.1 下载Spark源码
- 9.3.2 编译Spark源码
- 任务4 Spark初体验
- 9.4.1 Spark环境部署
- 9.4.2 spark-shell
- 本章总结
- 本章练习
- 第10章 Spark Core
- 任务1 Spark RDD
- 10.1.1 RDD介绍
- 10.1.2 RDD的创建
- 10.1.3 RDD的转换算子
- 10.1.4 RDD的动作算子
- 10.1.5 RDD的依赖关系
- 任务2 RDD高级应用
- 10.2.1 RDD缓存机制
- 10.2.2 共享变量
- 10.2.3 Spark架构设计
- 任务3 基于RDD的Spark应用程序开发
- 10.3.1 准备工作
- 10.3.2 词频计数实例
- 10.3.3 年龄统计实例
- 本章总结
- 本章练习
- 第11章 Spark SQL
- 任务1 认识Spark SQL
- 11.1.1 SQL
- 11.1.2 SQL on Hadoop框架
- 11.1.3 Spark SQL简介
- 任务2 Spark SQL编程基础
- 11.2.1 Spark SQL编程入口
- 11.2.2 Data Frame基础
- 11.2.3 Data Frame编程实例
- 任务3 Spark SQL编程进阶
- 11.3.1 Spark SQL操作外部数据源
- 11.3.2 Spark SQL函数
- 11.3.3 Spark SQL调优
- 本章总结
- 本章练习
- 第12章 Spark Streaming
- 任务1 流处理框架及Spark Streaming
- 12.1.1 流处理框架简介
- 12.1.2 Spark Streaming简介
- 任务2 使用Spark Streaming编程
- 12.2.1 Spark Streaming核心
- 12.2.2 Spark Streaming编程实例
- 任务3 Spark Streaming高级应用
- 12.3.1 使用Spark Streaming整合Flume
- 12.3.2 使用Spark Streaming整合Kafka
- 12.3.3 Spark Streaming优化策略
- 本章总结
- 本章练习
- 附录
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。