《Python大数据处理库PySpark实战》电子书在线阅读-汪明-得到APP

3.3

用户推荐指数

互联网类型

可以朗读语音朗读

279千字字数

2021-03-01 发行日期

展开全部

主编推荐语

本书是PySpark的入门教材，适合有一定Python基础的读者学习使用。

内容简介

我国提出新基建概念，要加快大数据中心、人工智能等新型基础设施的建设进度，这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理，降低大数据学习门槛。本书适合有一定Python基础的读者学习使用。

本书分为7章，第1章介绍大数据的基本概念、常用的大数据分析工具；第2章介绍Spark作为大数据处理的特点和算法；第3章介绍Spark实战环境的搭建，涉及Windows和Linux操作系统；第4章介绍如何灵活应用PySpark对数据进行操作；第5章介绍PySpark ETL处理，涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容；第6章介绍PySpark如何利用MLlib库进行分布式机器学习（Titanic幸存者预测）；第7章介绍一个PySpark和Kafka结合的实时项目。

评分及书评

3.3

3个评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月，是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府，秉承清华人“自强不息，厚德载物”的人文精神，清华大学出版社在短短二十多年的时间里，迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向，把出版高等学校教学用书和科技图书作为主要任务，并为促进学术交流、繁荣出版事业设立了多项出版基金，逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色，在教育出版领域树立了强势品牌。