互联网
类型
6.9
豆瓣评分
可以朗读
语音朗读
570千字
字数
2016-01-01
发行日期
展开全部
主编推荐语
对Spark的核心模块、部署和协作模块的实现原理与使用技巧进行了深入的剖析与解读。
内容简介
本书分为三大部分:第一部分为准备篇(第1~2章),简单介绍了Spark的环境搭建和基本原理,帮助读者了解一些背景知识。第二部分为核心设计篇(第3~7章),着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引擎及部署模式的原理和源码分析。第三部分为扩展篇(第8~11章),主要讲解基于Spark核心的各种扩展及应用,包括:SQL处理引擎、Hive处理、流式计算框架Spark Streaming、图计算框架GraphX、机器学习库MLlib等内容。
目录
- 版权信息
- 前言
- 准备篇
- 第1章 环境准备
- 1.1 运行环境准备
- 1.2 Spark初体验
- 1.3 阅读环境准备
- 1.4 Spark源码编译与调试
- 1.5 小结
- 第2章 Spark设计理念与基本架构
- 2.1 初识Spark
- 2.2 Spark基础知识
- 2.3 Spark基本设计思想
- 2.4 Spark基本架构
- 2.5 小结
- 核心设计篇
- 第3章 SparkContext的初始化
- 3.1 SparkContext概述
- 3.2 创建执行环境SparkEnv
- 3.3 创建metadataCleaner
- 3.4 SparkUI详解
- 3.5 Hadoop相关配置及Executor环境变量
- 3.6 创建任务调度器TaskScheduler
- 3.7 创建和启动DAGScheduler
- 3.8 TaskScheduler的启动
- 3.9 启动测量系统MetricsSystem
- 3.10 创建和启动ExecutorAllocationManager
- 3.11 ContextCleaner的创建与启动
- 3.12 Spark环境更新
- 3.13 创建DAGSchedulerSource和BlockManagerSource
- 3.14 将SparkContext标记为激活
- 3.15 小结
- 第4章 存储体系
- 4.1 存储体系概述
- 4.2 shuffle服务与客户端
- 4.3 BlockManagerMaster对BlockManager的管理
- 4.4 磁盘块管理器DiskBlockManager
- 4.5 磁盘存储DiskStore
- 4.6 内存存储MemoryStore
- 4.7 Tachyon存储TachyonStore
- 4.8 块管理器BlockManager
- 4.9 metadataCleaner和broadcastCleaner
- 4.10 缓存管理器CacheManager
- 4.11 压缩算法
- 4.12 磁盘写入实现DiskBlockObjectWriter
- 4.13 块索引shuffle管理器IndexShuffleBlockManager
- 4.14 shuffle内存管理器ShuffleMemoryManager
- 4.15 小结
- 第5章 任务提交与执行
- 5.1 任务概述
- 5.2 广播Hadoop的配置信息
- 5.3 RDD转换及DAG构建
- 5.4 任务提交
- 5.5 执行任务
- 5.6 任务执行后续处理
- 5.7 小结
- 第6章 计算引擎
- 6.1 迭代计算
- 6.2 什么是shuffle
- 6.3 map端计算结果缓存处理
- 6.4 map端计算结果持久化
- 6.5 reduce端读取中间计算结果
- 6.6 reduce端计算
- 6.7 map端与reduce端组合分析
- 6.8 小结
- 第7章 部署模式
- 7.1 local部署模式
- 7.2 local-cluster部署模式
- 7.3 Standalone部署模式
- 7.4 容错机制
- 7.5 其他部署方案
- 7.6 小结
- 扩展篇
- 第8章 Spark SQL
- 8.1 Spark SQL总体设计
- 8.2 字典表Catalog
- 8.3 Tree和TreeNode
- 8.4 词法解析器Parser的设计与实现
- 8.5 Rule和RuleExecutor
- 8.6 Analyzer与Optimizer的设计与实现
- 8.7 生成物理执行计划
- 8.8 执行物理执行计划
- 8.9 Hive
- 8.10 应用举例:JavaSparkSQL
- 8.11 小结
- 第9章 流式计算
- 9.1 Spark Streaming总体设计
- 9.2 StreamingContext初始化
- 9.3 输入流接收器规范Receiver
- 9.4 数据流抽象DStream
- 9.5 流式计算执行过程分析
- 9.6 窗口操作
- 9.7 应用举例
- 9.8 小结
- 第10章 图计算
- 10.1 Spark GraphX总体设计
- 10.2 图操作
- 10.3 Pregel API
- 10.4 Graph的构建
- 10.5 顶点集合抽象VertexRDD
- 10.6 边集合抽象EdgeRDD
- 10.7 图分割
- 10.8 常用算法
- 10.9 应用举例
- 10.10 小结
- 第11章 机器学习
- 11.1 机器学习概论
- 11.2 Spark MLlib总体设计
- 11.3 数据类型
- 11.4 基础统计
- 11.5 分类和回归
- 11.6 决策树
- 11.7 随机森林
- 11.8 梯度提升决策树
- 11.9 朴素贝叶斯
- 11.10 保序回归
- 11.11 协同过滤
- 11.12 聚类
- 11.13 维数减缩
- 11.14 特征提取与转型
- 11.15 频繁模式挖掘
- 11.16 预言模型标记语言
- 11.17 管道
- 11.18 小结
- 附录A Utils
- 附录B Akka
- 附录C Jetty
- 附录D Metrics
- 附录E Hadoop word count
- 附录F CommandUtils
- 附录G Netty
- 附录H 源码编译错误
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。