展开全部

主编推荐语

系统讲解Spark SQL的基础知识、编程技巧和实践应用。

内容简介

Spark SQL是Spark用于处理结构化数据的一个模块。本书共8章内容,由浅入深地讲解Spark SQL的基础知识、安装部署、编程基础、编程进阶、函数、性能调优技巧以及编程实践等知识。通过本书的学习,读者能够掌握Spark SQL核心技术。
 
本书每章安排了习题和总结,以便使读者能更好地学习和更牢固地掌握Spark SQL编程方法。此外,本书还提供了PPT教学课件、源代码等配套资源,供使用本书的读者下载。
 
本书可作为高等学校大数据、计算机、统计相关专业学生的大数据进阶课程的教材,也可供相关技术人员学习参考。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 第1章 Spark SQL基础知识
  • 1.1 Spark SQL背景
  • 1.2 Spark SQL简介
  • 1.2.1 Spark SQL的特点
  • 1.2.2 Spark SQL的用途
  • 1.2.3 Spark SQL的使用场景
  • 1.3 为什么要学习Spark SQL
  • 1.4 Spark SQL的原理
  • 1.4.1 传统SQL的运行原理
  • 1.4.2 Spark SQL的运行原理
  • 1.4.3 Spark SQL的开发步骤
  • 1.5 Spark SQL的运行模式
  • 1.5.1 Local模式
  • 1.5.2 Standalone模式
  • 1.5.3 OnYarn模式
  • 第2章 Spark SQL安装部署
  • 2.1 运行环境说明
  • 2.1.1 操作系统说明
  • 2.1.2 Java版本说明
  • 2.1.3 Scala版本说明
  • 2.1.4 操作系统客户端工具说明
  • 2.2 运行环境准备
  • 2.2.1 依赖下载
  • 2.2.2 安装Java
  • 2.2.3 安装Scala
  • 2.3 部署Spark SQL
  • 2.3.1 下载安装包
  • 2.3.2 单机部署
  • 2.3.3 集群部署
  • 2.3.4 运行环境参数
  • 第3章 第一个Spark SQL应用程序
  • 3.1 搭建开发环境
  • 3.1.1 下载开发工具
  • 3.1.2 安装IDEA
  • 3.2 编写Spark SQL应用程序
  • 3.2.1 Spark SQL应用程序的编写步骤
  • 3.2.2 编写第一个Spark SQL应用程序
  • 3.2.3 运行第一个Spark SQL应用程序
  • 第4章 Spark SQL编程基础
  • 4.1 RDD概述
  • 4.1.1 RDD的优缺点
  • 4.1.2 RDD模型介绍
  • 4.2 深入剖析RDD
  • 4.2.1 Spark相关专业术语定义
  • 4.2.2 Spark Application的构成
  • 4.2.3 Spark运行的基本流程
  • 4.2.4 Spark运行架构的特点
  • 4.2.5 Spark核心原理
  • 4.3 创建RDD
  • 4.4 RDD操作
  • 4.4.1 RDD转换操作
  • 4.4.2 RDD控制操作
  • 4.4.3 RDD行动操作
  • 4.5 RDD持久化
  • 4.5.1 持久化优势
  • 4.5.2 持久化策略
  • 4.6 RDD容错机制
  • 4.6.1 lineage机制
  • 4.6.2 checkpoint机制
  • 第5章 Spark SQL编程进阶
  • 5.1 概述
  • 5.2 SparkSession
  • 5.2.1 SparkSession介绍
  • 5.2.2 创建SparkSession
  • 5.2.3 SparkSession参数设置
  • 5.2.4 SparkSession元信息读取
  • 5.3 DataFrame
  • 5.3.1 深入理解DataFrame
  • 5.3.2 DataFrame的优缺点
  • 5.3.3 DataFrame的演变过程
  • 5.3.4 DataFrame的使用形式
  • 5.3.5 创建DataFrame
  • 5.3.6 DataFrame操作
  • 5.3.7 DataFrame持久化
  • 5.3.8 DataFrame实例
  • 5.4 DataSet
  • 5.4.1 深入理解DataSet
  • 5.4.2 DataSet的优点
  • 5.4.3 创建DataSet
  • 5.4.4 DataSet操作
  • 5.4.5 DataSet持久化
  • 5.5 数据抽象的共性与区别
  • 5.5.1 3种数据抽象的共性
  • 5.5.2 3种数据抽象的区别
  • 5.6 数据抽象的相互转换
  • 5.6.1 将RDD转换为DataFrame
  • 5.6.2 将DataFrame转换为DataSet
  • 5.6.3 将DataSet转换为DataFrame
  • 第6章 Spark SQL函数
  • 6.1 用户定义函数
  • 6.1.1 注册UDF
  • 6.1.2 使用UDF
  • 6.1.3 UDF实例
  • 6.2 用户定义聚合函数
  • 6.2.1 注册UDAF
  • 6.2.2 使用UDAF
  • 6.2.3 UDAF实例
  • 6.3 常用内置函数
  • 第7章 Spark SQL性能调优
  • 7.1 概述
  • 7.1.1 木桶原理
  • 7.1.2 阿姆达尔定律
  • 7.2 并行度调优
  • 7.2.1 什么是并行度
  • 7.2.2 为什么需要对并行度进行调优
  • 7.2.3 如何合理设置并行度
  • 7.3 内存调优
  • 7.3.1 为什么需要对内存进行调优
  • 7.3.2 如何充分使用内存
  • 7.4 磁盘I/O调优
  • 7.4.1 为什么需要对磁盘I/O进行调优
  • 7.4.2 如何充分使用磁盘I/O
  • 7.5 网络I/O调优
  • 7.5.1 为什么需要对网络I/O进行调优
  • 7.5.2 如何充分使用网络I/O
  • 第8章 Spark SQL编程实践
  • 8.1 Spark SQL实践一——学生考试信息分析
  • 8.2 Spark SQL实践二——生鲜电商交易数据分析
  • 8.3 Spark SQL实践三——四川省新生婴儿信息分析
  • 附录
  • 附录1 常用内置函数
  • 附录1.1 常用聚合函数
  • 附录1.2 常用排序函数
  • 附录1.3 常用字符串函数
  • 附录1.4 常用时间函数
  • 附录1.5 常用数学函数
  • 附录1.6 常用集合函数
  • 附录1.7 其他常用函数
  • 附录2 常用高阶函数
  • 附录2.1 transform函数
  • 附录2.2 aggregate函数
  • 附录2.3 filter函数
  • 附录2.4 exists函数
  • 附录2.5 zip_with函数
  • 附录3 术语解释
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。