展开全部

主编推荐语

一本引导你深度学习Spark的技术指南。

内容简介

本书由国内具实力的大数据在线教育机构小象学院组织撰写,旨在用合理的结构和精炼的内容让你用短的时间掌握Spark技术的核心内容。

第1章和第2章分别讲解了Spark的开发环境和编程模型;第3章分析了Spark的工作机制和原理;第4章则结合源代码分析了Spark的内核架构和实现原理;第5章讲解了Spark与YARN的结合应用;第6章介绍了Spark生态中其他模块的功能和使用;第7章总结了Spark性能调优方面的技巧和方法;第8章描述了Spark2.0发布后,其模块API的变化以及新增的功能特性。

目录

  • 版权信息
  • 前言
  • 第1章 Spark架构与集群环境
  • 1.1 Spark概述与架构
  • 1.1.1 Spark概述
  • 1.1.2 Spark生态
  • 1.1.3 Spark架构
  • 1.2 在Linux集群上部署Spark
  • 1.2.1 安装OpenJDK
  • 1.2.2 安装Scala
  • 1.2.3 配置SSH免密码登录
  • 1.2.4 Hadoop的安装配置
  • 1.2.5 Spark的安装部署
  • 1.2.6 Hadoop与Spark的集群复制
  • 1.3 Spark集群试运行
  • 1.4 Intellij IDEA的安装与配置
  • 1.4.1 Intellij的安装
  • 1.4.2 Intellij的配置
  • 1.5 Eclipse IDE的安装与配置
  • 1.6 使用Spark Shell开发运行Spark程序
  • 1.7 本章小结
  • 第2章 Spark编程模型
  • 2.1 RDD弹性分布式数据集
  • 2.1.1 RDD简介
  • 2.1.2 深入理解RDD
  • 2.1.3 RDD特性总结
  • 2.2 Spark程序模型
  • 2.3 Spark算子
  • 2.3.1 算子简介
  • 2.3.2 Value型Transmation算子
  • 2.3.3 Key-Value型Transmation算子
  • 2.3.4 Action算子
  • 2.4 本章小结
  • 第3章 Spark机制原理
  • 3.1 Spark应用执行机制分析
  • 3.1.1 Spark应用的基本概念
  • 3.1.2 Spark应用执行机制概要
  • 3.1.3 应用提交与执行
  • 3.2 Spark调度机制
  • 3.2.1 Application的调度
  • 3.2.2 job的调度
  • 3.2.3 stage(调度阶段)和TasksetManager的调度
  • 3.2.4 task的调度
  • 3.3 Spark存储与I/O
  • 3.3.1 Spark存储系统概览
  • 3.3.2 BlockManager中的通信
  • 3.4 Spark通信机制
  • 3.4.1 分布式通信方式
  • 3.4.2 通信框架AKKA
  • 3.4.3 Client、Master和Worker之间的通信
  • 3.5 容错机制及依赖
  • 3.5.1 Lineage(血统)机制
  • 3.5.2 Checkpoint(检查点)机制
  • 3.6 Shuffle机制
  • 3.6.1 什么是Shuffle
  • 3.6.2 Shuffle历史及细节
  • 3.7 本章小结
  • 第4章 深入Spark内核
  • 4.1 Spark代码布局
  • 4.1.1 Spark源码布局简介
  • 4.1.2 Spark Core内模块概述
  • 4.1.3 Spark Core外模块概述
  • 4.2 Spark执行主线[RDD→Task]剖析
  • 4.2.1 从RDD到DAGScheduler
  • 4.2.2 从DAGScheduler到TaskScheduler
  • 4.2.3 从TaskScheduler到Worker节点
  • 4.3 Client、Master和Worker交互过程剖析
  • 4.3.1 交互流程概览
  • 4.3.2 交互过程调用
  • 4.4 Shuffle触发
  • 4.4.1 触发Shuffle Write
  • 4.4.2 触发Shuffle Read
  • 4.5 Spark存储策略
  • 4.5.1 CacheManager职能
  • 4.5.2 BlockManager职能
  • 4.5.3 DiskStore与DiskBlockManager类
  • 4.5.4 MemoryStore类
  • 4.6 本章小结
  • 第5章 Spark on YARN
  • 5.1 YARN概述
  • 5.2 Spark on YARN的部署模式
  • 5.3 Spark on YARN的配置重点
  • 5.3.1 YARN的自身内存配置
  • 5.3.2 Spark on YARN的重要配置
  • 5.4 本章小结
  • 第6章 BDAS生态主要模块
  • 6.1 Spark SQL
  • 6.1.1 Spark SQL概述
  • 6.1.2 Spark SQL的架构分析
  • 6.1.3 Spark SQL如何使用
  • 6.2 Spark Streaming
  • 6.2.1 Spark Streaming概述
  • 6.2.2 Spark Streaming的架构分析
  • 6.2.3 Spark Streaming编程模型
  • 6.2.4 数据源Data Source
  • 6.2.5 DStream操作
  • 6.3 SparkR
  • 6.3.1 R语言概述
  • 6.3.2 SparkR简介
  • 6.3.3 DataFrame创建
  • 6.3.4 DataFrame操作
  • 6.4 MLlib on Spark
  • 6.4.1 机器学习概述
  • 6.4.2 机器学习的研究方向与问题
  • 6.4.3 机器学习的常见算法
  • 6.4.4 MLlib概述
  • 6.4.5 MLlib架构
  • 6.4.6 MLlib使用实例——电影推荐
  • 6.5 本章小结
  • 第7章 Spark调优
  • 7.1 参数配置
  • 7.2 调优技巧
  • 7.2.1 序列化优化
  • 7.2.2 内存优化
  • 7.2.3 数据本地化
  • 7.2.4 其他优化考虑
  • 7.3 实践中常见调优问题及思考
  • 7.4 本章小结
  • 第8章 Spark 2.0.0
  • 8.1 功能变化
  • 8.1.1 删除的功能
  • 8.1.2 Spark中发生变化的行为
  • 8.1.3 不再建议使用的功能
  • 8.2 Core以及Spark SQL的改变
  • 8.2.1 编程API
  • 8.2.2 多说些关于SparkSession
  • 8.2.3 SQL
  • 8.3 MLlib
  • 8.3.1 新功能
  • 8.3.2 速度/扩展性
  • 8.4 SparkR
  • 8.5 Streaming
  • 8.5.1 初识结构化Streaming
  • 8.5.2 结构化Streaming编程模型
  • 8.5.3 结果输出
  • 8.6 依赖、打包
  • 8.7 本章小结
展开全部

评分及书评

评分不足
1个评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。