3.3 用户推荐指数
计算机
类型
可以朗读
语音朗读
279千字
字数
2021-03-01
发行日期
展开全部
主编推荐语
本书是PySpark的入门教材,适合有一定Python基础的读者学习使用。
内容简介
我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛。本书适合有一定Python基础的读者学习使用。
本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 大数据时代
- 1.1 什么是大数据
- 1.1.1 大数据的特点
- 1.1.2 大数据的发展趋势
- 1.2 大数据下的分析工具
- 1.2.1 Hadoop
- 1.2.2 Hive
- 1.2.3 HBase
- 1.2.4 Apache Phoenix
- 1.2.5 Apache Drill
- 1.2.6 Apache Hudi
- 1.2.7 Apache Kylin
- 1.2.8 Apache Presto
- 1.2.9 ClickHouse
- 1.2.10 Apache Spark
- 1.2.11 Apache Flink
- 1.2.12 Apache Storm
- 1.2.13 Apache Druid
- 1.2.14 Apache Kafka
- 1.2.15 TensorFlow
- 1.2.16 PyTorch
- 1.2.17 Apache Superset
- 1.2.18 Elasticsearch
- 1.2.19 Jupyter Notebook
- 1.2.20 Apache Zeppelin
- 1.3 小结
- 第2章 大数据的瑞士军刀——Spark
- 2.1 Hadoop与生态系统
- 2.1.1 Hadoop概述
- 2.1.2 HDFS体系结构
- 2.1.3 Hadoop生态系统
- 2.2 Spark与Hadoop
- 2.2.1 Apache Spark概述
- 2.2.2 Spark和Hadoop比较
- 2.3 Spark核心概念
- 2.3.1 Spark软件栈
- 2.3.2 Spark运行架构
- 2.3.3 Spark部署模式
- 2.4 Spark基本操作
- 2.5 SQL in Spark
- 2.6 Spark与机器学习
- 2.6.1 决策树算法
- 2.6.2 贝叶斯算法
- 2.6.3 支持向量机算法
- 2.6.4 随机森林算法
- 2.6.5 人工神经网络算法
- 2.6.6 关联规则算法
- 2.6.7 线性回归算法
- 2.6.8 KNN算法
- 2.6.9 K-Means算法
- 2.7 小结
- 第3章 Spark实战环境设定
- 3.1 建立Spark环境前提
- 3.1.1 CentOS 7安装
- 3.1.2 FinalShell安装
- 3.1.3 PuTTY安装
- 3.1.4 JDK安装
- 3.1.5 Python安装
- 3.1.6 Visual Studio Code安装
- 3.1.7 PyCharm安装
- 3.2 一分钟建立Spark环境
- 3.2.1 Linux搭建Spark环境
- 3.2.2 Windows搭建Spark环境
- 3.3 建立Hadoop集群
- 3.3.1 CentOS配置
- 3.3.2 Hadoop伪分布模式安装
- 3.3.3 Hadoop完全分布模式安装
- 3.4 安装与配置Spark集群
- 3.5 安装与配置Hive
- 3.5.1 Hive安装
- 3.5.2 Hive与Spark集成
- 3.6 打造交互式Spark环境
- 3.6.1 Spark Shell
- 3.6.2 PySpark
- 3.6.3 Jupyter Notebook安装
- 3.7 小结
- 第4章 活用PySpark
- 4.1 Python语法复习
- 4.1.1 Python基础语法
- 4.1.2 Python变量类型
- 4.1.3 Python运算符
- 4.1.4 Python控制语句
- 4.1.5 Python函数
- 4.1.6 Python模块和包
- 4.1.7 Python面向对象
- 4.1.8 Python异常处理
- 4.1.9 Python JSON处理
- 4.1.10 Python日期处理
- 4.2 用PySpark建立第一个Spark RDD
- 4.2.1 PySpark Shell建立RDD
- 4.2.2 VSCode编程建立RDD
- 4.2.3 Jupyter编程建立RDD
- 4.3 RDD的操作与观察
- 4.3.1 first操作
- 4.3.2 max操作
- 4.3.3 sum操作
- 4.3.4 take操作
- 4.3.5 top操作
- 4.3.6 count操作
- 4.3.7 collect操作
- 4.3.8 collectAsMap操作
- 4.3.9 countByKey操作
- 4.3.10 countByValue操作
- 4.3.11 glom操作
- 4.3.12 coalesce操作
- 4.3.13 combineByKey操作
- 4.3.14 distinct操作
- 4.3.15 filter操作
- 4.3.16 flatMap操作
- 4.3.17 flatMapValues操作
- 4.3.18 fold操作
- 4.3.19 foldByKey操作
- 4.3.20 foreach操作
- 4.3.21 foreachPartition操作
- 4.3.22 map操作
- 4.3.23 mapPartitions操作
- 4.3.24 mapPartitionsWithIndex操作
- 4.3.25 mapValues操作
- 4.3.26 groupBy操作
- 4.3.27 groupByKey操作
- 4.3.28 keyBy操作
- 4.3.29 keys操作
- 4.3.30 zip操作
- 4.3.31 zipWithIndex操作
- 4.3.32 values操作
- 4.3.33 union操作
- 4.3.34 takeOrdered操作
- 4.3.35 takeSample操作
- 4.3.36 subtract操作
- 4.3.37 subtractByKey操作
- 4.3.38 stats操作
- 4.3.39 sortBy操作
- 4.3.40 sortByKey操作
- 4.3.41 sample操作
- 4.3.42 repartition操作
- 4.3.43 reduce操作
- 4.3.44 reduceByKey操作
- 4.3.45 randomSplit操作
- 4.3.46 lookup操作
- 4.3.47 join操作
- 4.3.48 intersection操作
- 4.3.49 fullOuterJoin操作
- 4.3.50 leftOuterJoin与rightOuterJoin操作
- 4.3.51 aggregate操作
- 4.3.52 aggregateByKey操作
- 4.3.53 cartesian操作
- 4.3.54 cache操作
- 4.3.55 saveAsTextFile操作
- 4.4 共享变数
- 4.4.1 广播变量
- 4.4.2 累加器
- 4.5 DataFrames与Spark SQL
- 4.5.1 DataFrame建立
- 4.5.2 Spark SQL基本用法
- 4.5.3 DataFrame基本操作
- 4.6 撰写第一个Spark程序
- 4.7 提交你的Spark程序
- 4.8 小结
- 第5章 PySpark ETL实战
- 5.1 认识资料单元格式
- 5.2 观察资料
- 5.3 选择、筛选与聚合
- 5.4 存储数据
- 5.5 Spark存储数据到SQL Server
- 5.6 小结
- 第6章 PySpark分布式机器学习
- 6.1 认识数据格式
- 6.2 描述统计
- 6.3 资料清理与变形
- 6.4 认识Pipeline
- 6.5 逻辑回归原理与应用
- 6.5.1 逻辑回归基本原理
- 6.5.2 逻辑回归应用示例:Titanic幸存者预测
- 6.6 决策树原理与应用
- 6.6.1 决策树基本原理
- 6.6.2 决策树应用示例:Titanic幸存者预测
- 6.7 小结
- 第7章 实战:PySpark+Kafka实时项目
- 7.1 Kafka和Flask环境搭建
- 7.2 代码实现
- 7.3 小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。