科技
类型
5.5
豆瓣评分
可以朗读
语音朗读
198千字
字数
2016-05-01
发行日期
展开全部
主编推荐语
腾讯专家首次分享Spark最新实践,基于真实数据,用案例分析全面解读大数据应用设计!
内容简介
本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍Spark SQL、Spark Streaming、Spark GraphX和Spark MLlib功能模块。此外,本书详细介绍了常见的实战问题,比如大数据环境下的配置设置、程序调优等。本书适合大数据开发、运维等相关从业人员学习参考。
目录
- 版权信息
- 序一
- 序二
- 前言
- 第1章 Spark与大数据
- 1.1 大数据的发展及现状
- 1.1.1 大数据时代所面临的问题
- 1.1.2 谷歌的大数据解决方案
- 1.1.3 Hadoop生态系统
- 1.2 Spark应时而生
- 1.2.1 Spark的起源
- 1.2.2 Spark的特点
- 1.2.3 Spark的未来发展
- 第2章 Spark基础
- 2.1 Spark本地单机模式体验
- 2.1.1 安装虚拟机
- 2.1.2 安装JDK
- 2.1.3 下载Spark预编译包
- 2.1.4 本地体验Spark
- 2.2 高可用Spark分布式集群部署
- 2.2.1 集群总览
- 2.2.2 集群机器的型号选择
- 2.2.3 初始化集群机器环境
- 2.2.4 部署ZooKeeper集群
- 2.2.5 编译Spark
- 2.2.6 部署Spark Standalone集群
- 2.2.7 高可用Hadoop集群
- 2.2.8 让Spark运行在YARN上
- 2.2.9 一键部署高可用Hadoop + Spark集群
- 2.3 Spark编程指南
- 2.3.1 交互式编程
- 2.3.2 RDD创建
- 2.3.3 RDD操作
- 2.3.4 使用其他语言开发Spark程序
- 2.4 打包和提交
- 2.4.1 编译、链接、打包
- 2.4.2 提交
- 第3章 Spark工作机制
- 3.1 调度管理
- 3.1.1 集群概述及名词解释
- 3.1.2 Spark程序之间的调度
- 3.1.3 Spark程序内部的调度
- 3.2 内存管理
- 3.2.1 RDD持久化
- 3.2.2 共享变量
- 3.3 容错机制
- 3.3.1 容错体系概述
- 3.3.2 Master节点失效
- 3.3.3 Slave节点失效
- 3.4 监控管理
- 3.4.1 Web界面
- 3.4.2 REST API
- 3.4.3 Metrics指标体系
- 3.4.4 其他监控工具
- 3.5 Spark程序配置管理
- 3.5.1 Spark程序配置加载过程
- 3.5.2 环境变量配置
- 3.5.3 Spark属性项配置
- 3.5.4 查看当前的配置
- 3.5.5 配置Spark日志
- 第4章 Spark内核讲解
- 4.1 Spark核心数据结构RDD
- 4.1.1 RDD的定义
- 4.1.2 RDD的Transformation
- 4.1.3 RDD的Action
- 4.1.4 Shuffle
- 4.2 SparkContext
- 4.2.1 SparkConf配置
- 4.2.2 初始化过程
- 4.2.3 其他功能接口
- 4.3 DAG调度
- 4.3.1 DAGScheduler
- 4.3.2 TaskScheduler
- 第5章 Spark SQL与数据仓库
- 5.1 Spark SQL基础
- 5.1.1 分布式SQL引擎
- 5.1.2 支持的SQL语法
- 5.1.3 支持的数据类型
- 5.1.4 DataFrame
- 5.1.5 DataFrame数据源
- 5.1.6 性能调优
- 5.2 Spark SQL原理和运行机制
- 5.2.1 Spark SQL整体架构
- 5.2.2 Catalyst执行优化器
- 5.3 应用场景:基于淘宝数据建立电商数据仓库
- 5.3.1 电商数据仓库场景
- 5.3.2 数据准备和表设计
- 5.3.3 用Spark SQL来完成日常运营数据分析
- 5.3.4 Spark SQL在大规模数据下的性能表现
- 第6章 Spark流式计算
- 6.1 Spark Streaming基础知识
- 6.1.1 入门简单示例
- 6.1.2 基本概念
- 6.1.3 高级操作
- 6.2 深入理解Spark Streaming
- 6.2.1 DStream的两类操作
- 6.2.2 容错处理
- 6.2.3 性能调优
- 6.2.4 与Storm的对比
- 6.3 应用场景:一个类似百度统计的流式实时系统
- 6.3.1 Web log实时统计场景
- 6.3.2 日志实时采集
- 6.3.3 流式分析系统实现
- 第7章 Spark图计算
- 7.1 什么是图计算
- 7.1.1 图的基本概念
- 7.1.2 图计算的应用
- 7.2 Spark GraphX简介
- 7.2.1 GraphX实现
- 7.2.2 GraphX常用API介绍
- 7.3 应用场景:基于新浪微博数据的社交网络分析
- 7.3.1 社交网络分析的主要应用
- 7.3.2 社区发现算法简介
- 7.3.3 用GraphX实现Louvain算法
- 7.3.4 小试牛刀:谁是你的闺蜜
- 7.3.5 真实的场景:新浪微博关系分析
- 第8章 Spark MLlib
- 8.1 机器学习简介
- 8.1.1 什么是机器学习
- 8.1.2 机器学习示例
- 8.1.3 机器学习的基本方法
- 8.1.4 机器学习的常见技巧
- 8.1.5 机器学习参考资料
- 8.2 MLlib库简介
- 8.2.1 基础数据类型
- 8.2.2 主要的库
- 8.2.3 附带的示例程序
- 8.3 应用场景:搜索广告点击率预估系统
- 8.3.1 应用场景
- 8.3.2 逻辑回归
- 8.3.3 学习算法
- 8.3.4 模型评估
- 8.3.5 数据准备
- 8.3.6 模型训练
- 8.3.7 模型调优
- 附录 Scala语言参考
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。