互联网
类型
可以朗读
语音朗读
178千字
字数
2020-07-01
发行日期
展开全部
主编推荐语
Spark发明者撰写,详细讲解展示如何将Spark和R结合起来进行大数据分析。
内容简介
如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。
本书第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。
目录
- 版权信息
- O'Reilly Media, Inc.介绍
- 业界评论
- 译者序
- 序言
- 前言
- 第1章 引言
- 1.1 概述
- 1.2 Hadoop
- 1.3 Spark
- 1.4 R
- 1.5 sparklyr
- 1.6 小结
- 第2章 开始
- 2.1 概述
- 2.2 预备操作
- 2.2.1 安装sparklyr
- 2.2.2 安装Spark
- 2.3 连接
- 2.4 使用Spark
- 2.4.1 网络接口
- 2.4.2 分析
- 2.4.3 建模
- 2.4.4 数据
- 2.4.5 扩展
- 2.4.6 分布式R
- 2.4.7 流式数据
- 2.4.8 日志
- 2.5 断开连接
- 2.6 使用RStudio
- 2.7 资源
- 2.8 小结
- 第3章 分析
- 3.1 概述
- 3.2 数据导入
- 3.3 数据整理
- 3.3.1 内置函数
- 3.3.2 相关性
- 3.4 可视化
- 3.4.1 使用ggplot2
- 3.4.2 使用dbplot
- 3.5 建模
- 3.6 沟通
- 3.7 小结
- 第4章 建模
- 4.1 概述
- 4.2 探索性数据分析
- 4.3 特征工程
- 4.4 监督式学习
- 4.4.1 广义线性回归
- 4.4.2 其他模型
- 4.5 非监督式学习
- 4.5.1 数据准备
- 4.5.2 主题建模
- 4.6 小结
- 第5章 管道操作
- 5.1 概述
- 5.2 创建工作
- 5.3 用例
- 5.4 操作模式
- 5.5 交互性
- 5.6 部署
- 5.6.1 批打分
- 5.6.2 实时打分
- 5.7 小结
- 第6章 集群
- 6.1 概述
- 6.2 本地化
- 6.2.1 管理器
- 6.2.2 发行版
- 6.3 云端
- 6.3.1 亚马逊
- 6.3.2 Databricks
- 6.3.3 谷歌
- 6.3.4 IBM
- 6.3.5 微软
- 6.3.6 Qubole
- 6.4 Kubernetes
- 6.5 工具
- 6.5.1 RStudio
- 6.5.2 Jupyter
- 6.5.3 Livy
- 6.6 小结
- 第7章 连接
- 7.1 概述
- 7.1.1 边缘节点
- 7.1.2 Spark主目录
- 7.2 本地模式
- 7.3 单机模式
- 7.4 YARN
- 7.4.1 YARN客户端
- 7.4.2 YARN集群
- 7.5 Livy
- 7.6 Mesos
- 7.7 Kubernetes
- 7.8 云模式
- 7.9 批量模式
- 7.10 工具
- 7.11 多次连接
- 7.12 故障排除
- 7.12.1 记录日志
- 7.12.2 Spark Submit
- 7.12.3 Windows
- 7.13 小结
- 第8章 数据
- 8.1 概述
- 8.2 读取数据
- 8.2.1 路径
- 8.2.2 模式
- 8.2.3 内存
- 8.2.4 列
- 8.3 写入数据
- 8.4 复制数据
- 8.5 文件格式
- 8.5.1 CSV
- 8.5.2 JSON
- 8.5.3 Parquet
- 8.5.4 其他
- 8.6 文件系统
- 8.7 存储系统
- 8.7.1 Hive
- 8.7.2 Cassandra
- 8.7.3 JDBC
- 8.8 小结
- 第9章 调试
- 9.1 概述
- 9.1.1 计算图
- 9.1.2 时间线
- 9.2 配置
- 9.2.1 连接设置
- 9.2.2 提交设置
- 9.2.3 运行时设置
- 9.2.4 sparklyr设置
- 9.3 分区
- 9.3.1 隐式分区
- 9.3.2 显式分区
- 9.4 缓存
- 9.4.1 检查点
- 9.4.2 内存
- 9.5 重洗
- 9.6 序列化
- 9.7 配置文件
- 9.8 小结
- 第10章 扩展
- 10.1 概述
- 10.2 H2O
- 10.3 图模型
- 10.4 XGBoost
- 10.5 深度学习
- 10.6 基因组学
- 10.7 空间数据
- 10.8 故障排除
- 10.9 小结
- 第11章 分布式R
- 11.1 概述
- 11.2 用例
- 11.2.1 定制解析器
- 11.2.2 分区建模
- 11.2.3 网格搜索
- 11.2.4 Web API
- 11.2.5 模拟
- 11.3 分区
- 11.4 分组
- 11.5 列
- 11.6 context参数
- 11.7 函数
- 11.8 程序包
- 11.9 集群需求
- 11.9.1 安装R
- 11.9.2 Apache Arrow
- 11.10 故障排除
- 11.10.1 工作节点日志
- 11.10.2 解决超时
- 11.10.3 检查分区
- 11.10.4 调试工作节点
- 11.11 小结
- 第12章 数据流
- 12.1 概述
- 12.2 转换
- 12.2.1 分析
- 12.2.2 建模
- 12.2.3 管道
- 12.2.4 分布式R
- 12.3 Kafka
- 12.4 Shiny
- 12.5 小结
- 第13章 社区贡献
- 13.1 概述
- 13.2 Spark API
- 13.3 Spark扩展
- 13.4 使用Scala代码
- 13.5 小结
- 附录A 补充参考代码
- 作者介绍
- 封面介绍
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。