《深入大型数据集：并行与分布化Python代码》电子书在线阅读-（美）J.T. Wolohan（J.T. 沃勒翰）-得到APP

计算机类型

可以朗读语音朗读

175千字字数

2021-02-01 发行日期

展开全部

主编推荐语

这本书教授可伸缩编程，涵盖Hadoop、Spark、AWS等技术，旨在帮助你处理大数据集和加速决策过程。

内容简介

这本书教你写代码，让你可以处理任何大小的数据集。你将从笔记本大小的数据集开始，这些数据集通过将大任务分解为可以自动运行的小任务来教你并行处理数据分析。然后将这些相同的程序扩展到云服务器上的工业级数据集。根据地图坚定地降低范式，你将探索像Hadoop和PySpark这样的工具来有效地处理大量的分散式的数据集，通过使用机器学习来加速决策过程，和通过使用AWS S3来简化数据存储。本书的目标是教授一种可伸缩的编程风格。为了做到这一点，我们将涉及一些你可能不熟悉的编程或技术书籍。虽然其他书籍可能只会介绍某一个函数库库，而本书则会涉及许多函数库—既有内置的模块，例如functools和itertools，也有第三方库，例如toolz、pathos和mrjob。其他的书籍可能只会涉及某一项技术，而这本书会涉及很多技术，包括Hadoop、Spark和Amazon Web Services (AWS)。本书选择覆盖更广泛的技术是为了承认这样一个事实:为了让代码具有可伸缩性，你需要能够适应新的情况。

评分及书评

尚无评分

目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月，是国务院独资、工信部直属的中央级科技与教育出版社，是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展，已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域，综合出版能力位居全国出版行业前列。