展开全部

主编推荐语

本书是PySpark的入门教材,适合有一定Python基础的读者学习使用。

内容简介

我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛。本书适合有一定Python基础的读者学习使用。

本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1章 大数据时代
  • 1.1 什么是大数据
  • 1.1.1 大数据的特点
  • 1.1.2 大数据的发展趋势
  • 1.2 大数据下的分析工具
  • 1.2.1 Hadoop
  • 1.2.2 Hive
  • 1.2.3 HBase
  • 1.2.4 Apache Phoenix
  • 1.2.5 Apache Drill
  • 1.2.6 Apache Hudi
  • 1.2.7 Apache Kylin
  • 1.2.8 Apache Presto
  • 1.2.9 ClickHouse
  • 1.2.10 Apache Spark
  • 1.2.11 Apache Flink
  • 1.2.12 Apache Storm
  • 1.2.13 Apache Druid
  • 1.2.14 Apache Kafka
  • 1.2.15 TensorFlow
  • 1.2.16 PyTorch
  • 1.2.17 Apache Superset
  • 1.2.18 Elasticsearch
  • 1.2.19 Jupyter Notebook
  • 1.2.20 Apache Zeppelin
  • 1.3 小结
  • 第2章 大数据的瑞士军刀——Spark
  • 2.1 Hadoop与生态系统
  • 2.1.1 Hadoop概述
  • 2.1.2 HDFS体系结构
  • 2.1.3 Hadoop生态系统
  • 2.2 Spark与Hadoop
  • 2.2.1 Apache Spark概述
  • 2.2.2 Spark和Hadoop比较
  • 2.3 Spark核心概念
  • 2.3.1 Spark软件栈
  • 2.3.2 Spark运行架构
  • 2.3.3 Spark部署模式
  • 2.4 Spark基本操作
  • 2.5 SQL in Spark
  • 2.6 Spark与机器学习
  • 2.6.1 决策树算法
  • 2.6.2 贝叶斯算法
  • 2.6.3 支持向量机算法
  • 2.6.4 随机森林算法
  • 2.6.5 人工神经网络算法
  • 2.6.6 关联规则算法
  • 2.6.7 线性回归算法
  • 2.6.8 KNN算法
  • 2.6.9 K-Means算法
  • 2.7 小结
  • 第3章 Spark实战环境设定
  • 3.1 建立Spark环境前提
  • 3.1.1 CentOS 7安装
  • 3.1.2 FinalShell安装
  • 3.1.3 PuTTY安装
  • 3.1.4 JDK安装
  • 3.1.5 Python安装
  • 3.1.6 Visual Studio Code安装
  • 3.1.7 PyCharm安装
  • 3.2 一分钟建立Spark环境
  • 3.2.1 Linux搭建Spark环境
  • 3.2.2 Windows搭建Spark环境
  • 3.3 建立Hadoop集群
  • 3.3.1 CentOS配置
  • 3.3.2 Hadoop伪分布模式安装
  • 3.3.3 Hadoop完全分布模式安装
  • 3.4 安装与配置Spark集群
  • 3.5 安装与配置Hive
  • 3.5.1 Hive安装
  • 3.5.2 Hive与Spark集成
  • 3.6 打造交互式Spark环境
  • 3.6.1 Spark Shell
  • 3.6.2 PySpark
  • 3.6.3 Jupyter Notebook安装
  • 3.7 小结
  • 第4章 活用PySpark
  • 4.1 Python语法复习
  • 4.1.1 Python基础语法
  • 4.1.2 Python变量类型
  • 4.1.3 Python运算符
  • 4.1.4 Python控制语句
  • 4.1.5 Python函数
  • 4.1.6 Python模块和包
  • 4.1.7 Python面向对象
  • 4.1.8 Python异常处理
  • 4.1.9 Python JSON处理
  • 4.1.10 Python日期处理
  • 4.2 用PySpark建立第一个Spark RDD
  • 4.2.1 PySpark Shell建立RDD
  • 4.2.2 VSCode编程建立RDD
  • 4.2.3 Jupyter编程建立RDD
  • 4.3 RDD的操作与观察
  • 4.3.1 first操作
  • 4.3.2 max操作
  • 4.3.3 sum操作
  • 4.3.4 take操作
  • 4.3.5 top操作
  • 4.3.6 count操作
  • 4.3.7 collect操作
  • 4.3.8 collectAsMap操作
  • 4.3.9 countByKey操作
  • 4.3.10 countByValue操作
  • 4.3.11 glom操作
  • 4.3.12 coalesce操作
  • 4.3.13 combineByKey操作
  • 4.3.14 distinct操作
  • 4.3.15 filter操作
  • 4.3.16 flatMap操作
  • 4.3.17 flatMapValues操作
  • 4.3.18 fold操作
  • 4.3.19 foldByKey操作
  • 4.3.20 foreach操作
  • 4.3.21 foreachPartition操作
  • 4.3.22 map操作
  • 4.3.23 mapPartitions操作
  • 4.3.24 mapPartitionsWithIndex操作
  • 4.3.25 mapValues操作
  • 4.3.26 groupBy操作
  • 4.3.27 groupByKey操作
  • 4.3.28 keyBy操作
  • 4.3.29 keys操作
  • 4.3.30 zip操作
  • 4.3.31 zipWithIndex操作
  • 4.3.32 values操作
  • 4.3.33 union操作
  • 4.3.34 takeOrdered操作
  • 4.3.35 takeSample操作
  • 4.3.36 subtract操作
  • 4.3.37 subtractByKey操作
  • 4.3.38 stats操作
  • 4.3.39 sortBy操作
  • 4.3.40 sortByKey操作
  • 4.3.41 sample操作
  • 4.3.42 repartition操作
  • 4.3.43 reduce操作
  • 4.3.44 reduceByKey操作
  • 4.3.45 randomSplit操作
  • 4.3.46 lookup操作
  • 4.3.47 join操作
  • 4.3.48 intersection操作
  • 4.3.49 fullOuterJoin操作
  • 4.3.50 leftOuterJoin与rightOuterJoin操作
  • 4.3.51 aggregate操作
  • 4.3.52 aggregateByKey操作
  • 4.3.53 cartesian操作
  • 4.3.54 cache操作
  • 4.3.55 saveAsTextFile操作
  • 4.4 共享变数
  • 4.4.1 广播变量
  • 4.4.2 累加器
  • 4.5 DataFrames与Spark SQL
  • 4.5.1 DataFrame建立
  • 4.5.2 Spark SQL基本用法
  • 4.5.3 DataFrame基本操作
  • 4.6 撰写第一个Spark程序
  • 4.7 提交你的Spark程序
  • 4.8 小结
  • 第5章 PySpark ETL实战
  • 5.1 认识资料单元格式
  • 5.2 观察资料
  • 5.3 选择、筛选与聚合
  • 5.4 存储数据
  • 5.5 Spark存储数据到SQL Server
  • 5.6 小结
  • 第6章 PySpark分布式机器学习
  • 6.1 认识数据格式
  • 6.2 描述统计
  • 6.3 资料清理与变形
  • 6.4 认识Pipeline
  • 6.5 逻辑回归原理与应用
  • 6.5.1 逻辑回归基本原理
  • 6.5.2 逻辑回归应用示例:Titanic幸存者预测
  • 6.6 决策树原理与应用
  • 6.6.1 决策树基本原理
  • 6.6.2 决策树应用示例:Titanic幸存者预测
  • 6.7 小结
  • 第7章 实战:PySpark+Kafka实时项目
  • 7.1 Kafka和Flask环境搭建
  • 7.2 代码实现
  • 7.3 小结
展开全部

评分及书评

3.3
3个评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。