展开全部

主编推荐语

腾讯专家首次分享Spark最新实践,基于真实数据,用案例分析全面解读大数据应用设计!

内容简介

本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍Spark SQL、Spark Streaming、Spark GraphX和Spark MLlib功能模块。此外,本书详细介绍了常见的实战问题,比如大数据环境下的配置设置、程序调优等。本书适合大数据开发、运维等相关从业人员学习参考。

目录

  • 版权信息
  • 序一
  • 序二
  • 前言
  • 第1章 Spark与大数据
  • 1.1 大数据的发展及现状
  • 1.1.1 大数据时代所面临的问题
  • 1.1.2 谷歌的大数据解决方案
  • 1.1.3 Hadoop生态系统
  • 1.2 Spark应时而生
  • 1.2.1 Spark的起源
  • 1.2.2 Spark的特点
  • 1.2.3 Spark的未来发展
  • 第2章 Spark基础
  • 2.1 Spark本地单机模式体验
  • 2.1.1 安装虚拟机
  • 2.1.2 安装JDK
  • 2.1.3 下载Spark预编译包
  • 2.1.4 本地体验Spark
  • 2.2 高可用Spark分布式集群部署
  • 2.2.1 集群总览
  • 2.2.2 集群机器的型号选择
  • 2.2.3 初始化集群机器环境
  • 2.2.4 部署ZooKeeper集群
  • 2.2.5 编译Spark
  • 2.2.6 部署Spark Standalone集群
  • 2.2.7 高可用Hadoop集群
  • 2.2.8 让Spark运行在YARN上
  • 2.2.9 一键部署高可用Hadoop + Spark集群
  • 2.3 Spark编程指南
  • 2.3.1 交互式编程
  • 2.3.2 RDD创建
  • 2.3.3 RDD操作
  • 2.3.4 使用其他语言开发Spark程序
  • 2.4 打包和提交
  • 2.4.1 编译、链接、打包
  • 2.4.2 提交
  • 第3章 Spark工作机制
  • 3.1 调度管理
  • 3.1.1 集群概述及名词解释
  • 3.1.2 Spark程序之间的调度
  • 3.1.3 Spark程序内部的调度
  • 3.2 内存管理
  • 3.2.1 RDD持久化
  • 3.2.2 共享变量
  • 3.3 容错机制
  • 3.3.1 容错体系概述
  • 3.3.2 Master节点失效
  • 3.3.3 Slave节点失效
  • 3.4 监控管理
  • 3.4.1 Web界面
  • 3.4.2 REST API
  • 3.4.3 Metrics指标体系
  • 3.4.4 其他监控工具
  • 3.5 Spark程序配置管理
  • 3.5.1 Spark程序配置加载过程
  • 3.5.2 环境变量配置
  • 3.5.3 Spark属性项配置
  • 3.5.4 查看当前的配置
  • 3.5.5 配置Spark日志
  • 第4章 Spark内核讲解
  • 4.1 Spark核心数据结构RDD
  • 4.1.1 RDD的定义
  • 4.1.2 RDD的Transformation
  • 4.1.3 RDD的Action
  • 4.1.4 Shuffle
  • 4.2 SparkContext
  • 4.2.1 SparkConf配置
  • 4.2.2 初始化过程
  • 4.2.3 其他功能接口
  • 4.3 DAG调度
  • 4.3.1 DAGScheduler
  • 4.3.2 TaskScheduler
  • 第5章 Spark SQL与数据仓库
  • 5.1 Spark SQL基础
  • 5.1.1 分布式SQL引擎
  • 5.1.2 支持的SQL语法
  • 5.1.3 支持的数据类型
  • 5.1.4 DataFrame
  • 5.1.5 DataFrame数据源
  • 5.1.6 性能调优
  • 5.2 Spark SQL原理和运行机制
  • 5.2.1 Spark SQL整体架构
  • 5.2.2 Catalyst执行优化器
  • 5.3 应用场景:基于淘宝数据建立电商数据仓库
  • 5.3.1 电商数据仓库场景
  • 5.3.2 数据准备和表设计
  • 5.3.3 用Spark SQL来完成日常运营数据分析
  • 5.3.4 Spark SQL在大规模数据下的性能表现
  • 第6章 Spark流式计算
  • 6.1 Spark Streaming基础知识
  • 6.1.1 入门简单示例
  • 6.1.2 基本概念
  • 6.1.3 高级操作
  • 6.2 深入理解Spark Streaming
  • 6.2.1 DStream的两类操作
  • 6.2.2 容错处理
  • 6.2.3 性能调优
  • 6.2.4 与Storm的对比
  • 6.3 应用场景:一个类似百度统计的流式实时系统
  • 6.3.1 Web log实时统计场景
  • 6.3.2 日志实时采集
  • 6.3.3 流式分析系统实现
  • 第7章 Spark图计算
  • 7.1 什么是图计算
  • 7.1.1 图的基本概念
  • 7.1.2 图计算的应用
  • 7.2 Spark GraphX简介
  • 7.2.1 GraphX实现
  • 7.2.2 GraphX常用API介绍
  • 7.3 应用场景:基于新浪微博数据的社交网络分析
  • 7.3.1 社交网络分析的主要应用
  • 7.3.2 社区发现算法简介
  • 7.3.3 用GraphX实现Louvain算法
  • 7.3.4 小试牛刀:谁是你的闺蜜
  • 7.3.5 真实的场景:新浪微博关系分析
  • 第8章 Spark MLlib
  • 8.1 机器学习简介
  • 8.1.1 什么是机器学习
  • 8.1.2 机器学习示例
  • 8.1.3 机器学习的基本方法
  • 8.1.4 机器学习的常见技巧
  • 8.1.5 机器学习参考资料
  • 8.2 MLlib库简介
  • 8.2.1 基础数据类型
  • 8.2.2 主要的库
  • 8.2.3 附带的示例程序
  • 8.3 应用场景:搜索广告点击率预估系统
  • 8.3.1 应用场景
  • 8.3.2 逻辑回归
  • 8.3.3 学习算法
  • 8.3.4 模型评估
  • 8.3.5 数据准备
  • 8.3.6 模型训练
  • 8.3.7 模型调优
  • 附录 Scala语言参考
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    5.0

    近些年,大数据的概念非常火,且许多行业已经开始从大数据中获益,比如广告业。越来越多的企业也正在尝试使用大数据的平台和方法来解决一些现实问题,不过,在这个过程中难免会遇到困难。因此,本书旨在提供一个非常具有可操作性的指引,帮助读者亲身体验大数据的魅力。

      转发
      评论

    出版方

    人民邮电出版社·图灵出品

    图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。