互联网
类型
7.0
豆瓣评分
可以朗读
语音朗读
284千字
字数
2015-12-01
发行日期
展开全部
主编推荐语
本书从Spark的基础讲起,并且针对性地给出了实战场景应用。
内容简介
本书共分为四大部分,带你了解Spark的基础与应用。
基础篇(1~10章)介绍了Spark的用途、扩展、安装、运行模式、程序开发、编程模型、工作原理,以及Spark SQL、Spark Streaming、MLlib、GraphX、Bagel等重要的扩展。
实战篇(11~14)讲解了搜索结果的排序、个性化推荐系统、日志分析系统、自然语言处理、数据挖掘等方面的案例。
高级篇(15~18)则讲解了Spark的调度管理、存储管理、监控管理、性能优化、最佳实践以及重点算法的解读。
扩展篇(19~20)讲解了Spark job-schmerver和Tachyon。
目录
- 版权信息
- 前言
- 基础篇
- 第1章 Spark简介
- 1.1 什么是Spark
- 1.1.1 概述
- 1.1.2 Spark大数据处理框架
- 1.1.3 Spark的特点
- 1.1.4 Spark应用场景
- 1.2 Spark的重要扩展
- 1.2.1 Spark SQL和DataFrame
- 1.2.2 Spark Streaming
- 1.2.3 Spark MLlib和ML
- 1.2.4 GraphX
- 1.2.5 SparkR
- 1.3 本章小结
- 第2章 Spark部署和运行
- 2.1 部署准备
- 2.1.1 下载Spark
- 2.1.2 编译Spark版本
- 2.1.3 集群部署概述
- 2.2 Spark部署
- 2.2.1 Local模式部署
- 2.2.2 Standalone模式部署
- 2.2.3 YARN模式部署
- 2.3 运行Spark应用程序
- 2.3.1 Local模式运行Spark应用程序
- 2.3.2 Standalone模式运行Spark应用程序
- 2.3.3 YARN模式运行Spark
- 2.3.4 应用程序提交和参数传递
- 2.4 本章小结
- 第3章 Spark程序开发
- 3.1 使用Spark Shell编写程序
- 3.1.1 启动Spark Shell
- 3.1.2 加载text文件
- 3.1.3 简单RDD操作
- 3.1.4 简单RDD操作应用
- 3.1.5 RDD缓存
- 3.2 构建Spark的开发环境
- 3.2.1 准备环境
- 3.2.2 构建Spark的Eclipse开发环境
- 3.2.3 构建Spark的IntelliJ IDEA开发环境
- 3.3 独立应用程序编程
- 3.3.1 创建SparkContext对象
- 3.3.2 编写简单应用程序
- 3.3.3 编译并提交应用程序
- 3.4 本章小结
- 第4章 编程模型
- 4.1 RDD介绍
- 4.1.1 RDD特征
- 4.1.2 RDD依赖
- 4.2 创建RDD
- 4.2.1 集合(数组)创建RDD
- 4.2.2 存储创建RDD
- 4.3 RDD操作
- 4.3.1 转换操作
- 4.3.2 执行操作
- 4.3.3 控制操作
- 4.4 共享变量
- 4.4.1 广播变量
- 4.4.2 累加器
- 4.5 本章小结
- 第5章 作业执行解析
- 5.1 基本概念
- 5.1.1 Spark组件
- 5.1.2 RDD视图
- 5.1.3 DAG图
- 5.2 作业执行流程
- 5.2.1 基于Standalone模式的Spark架构
- 5.2.2 基于YARN模式的Spark架构
- 5.2.3 作业事件流和调度分析
- 5.3 运行时环境
- 5.3.1 构建应用程序运行时环境
- 5.3.2 应用程序转换成DAG
- 5.3.3 调度执行DAG图
- 5.4 应用程序运行实例
- 5.5 本章小结
- 第6章 Spark SQL与DataFrame
- 6.1 概述
- 6.1.1 Spark SQL发展
- 6.1.2 Spark SQL架构
- 6.1.3 Spark SQL特点
- 6.1.4 Spark SQL性能
- 6.2 DataFrame
- 6.2.1 DataFrame和RDD的区别
- 6.2.2 创建DataFrame
- 6.2.3 DataFrame操作
- 6.2.4 RDD转化为DataFrame
- 6.3 数据源
- 6.3.1 加载保存操作
- 6.3.2 Parquet文件
- 6.3.3 JSON数据集
- 6.3.4 Hive表
- 6.3.5 通过JDBC连接数据库
- 6.3.6 多数据源整合查询的小例子
- 6.4 分布式的SQL Engine
- 6.4.1 运行Thrift JDBC/ODBC服务
- 6.4.2 运行Spark SQL CLI
- 6.5 性能调优
- 6.5.1 缓存数据
- 6.5.2 调优参数
- 6.5.3 增加并行度
- 6.6 数据类型
- 6.7 本章小结
- 第7章 深入了解Spark Streaming
- 7.1 基础知识
- 7.1.1 Spark Streaming工作原理
- 7.1.2 DStream编程模型
- 7.2 DStream操作
- 7.2.1 Input DStream
- 7.2.2 DStream转换操作
- 7.2.3 DStream状态操作
- 7.2.4 DStream输出操作
- 7.2.5 缓存及持久化
- 7.2.6 检查点
- 7.3 性能调优
- 7.3.1 优化运行时间
- 7.3.2 设置合适的批次大小
- 7.3.3 优化内存使用
- 7.4 容错处理
- 7.4.1 文件输入源
- 7.4.2 基于Receiver的输入源
- 7.4.3 输出操作
- 7.5 一个例子
- 7.6 本章小结
- 第8章 Spark MLlib与机器学习
- 8.1 机器学习概述
- 8.1.1 机器学习分类
- 8.1.2 机器学习算法
- 8.2 Spark MLlib介绍
- 8.3 Spark MLlib库
- 8.3.1 MLlib数据类型
- 8.3.2 MLlib的算法库与实例
- 8.4 ML库
- 8.4.1 主要概念
- 8.4.2 算法库与实例
- 8.5 本章小结
- 第9章 GraphX图计算框架与应用
- 9.1 概述
- 9.2 Spark GraphX架构
- 9.3 GraphX编程
- 9.3.1 GraphX的图操作
- 9.3.2 常用图算法
- 9.4 应用场景
- 9.4.1 图谱体检平台
- 9.4.2 多图合并工具
- 9.4.3 能量传播模型
- 9.5 本章小结
- 第10章 SparkR(R on Spark)
- 10.1 概述
- 10.1.1 SparkR介绍
- 10.1.2 SparkR的工作原理
- 10.1.3 R语言介绍
- 10.1.4 R语言与其他语言的通信
- 10.2 安装SparkR
- 10.2.1 安装R语言与rJava
- 10.2.2 SparkR的安装
- 10.3 SparkR的运行与应用示例
- 10.3.1 运行SparkR
- 10.3.2 SparkR示例程序
- 10.3.3 R的DataFrame操作方法
- 10.3.4 SparkR的DataFrame
- 10.4 本章小结
- 实战篇
- 第11章 大数据分析系统
- 11.1 背景
- 11.2 数据格式
- 11.3 应用架构
- 11.4 业务实现
- 11.4.1 流量、性能的实时分析
- 11.4.2 流量、性能的统计分析
- 11.4.3 业务关联分析
- 11.4.4 离线报表分析
- 11.5 本章小结
- 第12章 系统资源分析平台
- 12.1 业务背景
- 12.1.1 业务介绍
- 12.1.2 实现目标
- 12.2 应用架构
- 12.2.1 总体架构
- 12.2.2 模块架构
- 12.3 代码实现
- 12.3.1 Kafka集群
- 12.3.2 数据采集
- 12.3.3 离线数据处理
- 12.3.4 数据表现
- 12.4 结果验证
- 12.5 本章小结
- 第13章 在Spark上训练LR模型
- 13.1 逻辑回归简介
- 13.2 数据格式
- 13.3 MLlib中LR模型源码介绍
- 13.3.1 逻辑回归分类器
- 13.3.2 优化方法
- 13.3.3 算法效果评估
- 13.4 实现案例
- 13.4.1 训练模型
- 13.4.2 计算AUC
- 13.5 本章小结
- 第14章 获取二级邻居关系图
- 14.1 理解PageRank
- 14.1.1 初步理解PageRank
- 14.1.2 深入理解PageRank
- 14.2 PageRank算法基于Spark的实现
- 14.3 基于PageRank的二级邻居获取
- 14.3.1 系统设计
- 14.3.2 系统实现
- 14.3.3 代码提交命令
- 14.4 本章小结
- 高级篇
- 第15章 调度管理
- 15.1 调度概述
- 15.1.1 应用程序间的调度
- 15.1.2 应用程序中的调度
- 15.2 调度器
- 15.2.1 调度池
- 15.2.2 Job调度流程
- 15.2.3 调度模块
- 15.2.4 Job的生与死
- 15.3 本章小结
- 第16章 存储管理
- 16.1 硬件环境
- 16.1.1 存储系统
- 16.1.2 本地磁盘
- 16.1.3 内存
- 16.1.4 网络和CPU
- 16.2 Storage模块
- 16.2.1 通信层
- 16.2.2 存储层
- 16.3 Shuffle数据持久化
- 16.4 本章小结
- 第17章 监控管理
- 17.1 Web界面
- 17.2 Spark UI历史监控
- 17.2.1 使用spark-schmerver的原因
- 17.2.2 配置spark-schmerver
- 17.3 监控工具
- 17.3.1 Metrics工具
- 17.3.2 其他工具
- 17.4 本章小结
- 第18章 性能调优
- 18.1 文件的优化
- 18.1.1 输入采用大文件
- 18.1.2 lzo压缩处理
- 18.1.3 Cache压缩
- 18.2 序列化数据
- 18.3 缓存
- 18.4 共享变量
- 18.4.1 广播变量
- 18.4.2 累加器
- 18.5 流水线优化
- 18.6 本章小结
- 扩展篇
- 第19章 Spark-jobschmerver实践
- 19.1 Spark-jobschmerver是什么
- 19.2 编译、部署及体验
- 19.2.1 编译及部署
- 19.2.2 体验
- 19.3 Spark-jobschmerver程序实战
- 19.3.1 创建步骤
- 19.3.2 一些常见的问题
- 19.4 使用场景:用户属性分布计算
- 19.4.1 项目需求
- 19.4.2 计算架构
- 19.4.3 使用NamedRDD
- 19.5 本章小结
- 第20章 Spark Tachyon实战
- 20.1 Tachyon文件系统
- 20.1.1 文件系统概述
- 20.1.2 HDFS和Tachyon
- 20.1.3 Tachyon设计原理
- 20.1.4 Tachyon特性
- 20.2 Tachyon入门
- 20.2.1 Tachyon部署
- 20.2.2 Tachyon API
- 20.2.3 在Spark上使用Tachyon
- 20.3 容错机制
- 20.4 本章小结
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。