展开全部

主编推荐语

Spark发明者撰写,详细讲解展示如何将Spark和R结合起来进行大数据分析。

内容简介

如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。

本书第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。

目录

  • 版权信息
  • O'Reilly Media, Inc.介绍
  • 业界评论
  • 译者序
  • 序言
  • 前言
  • 第1章 引言
  • 1.1 概述
  • 1.2 Hadoop
  • 1.3 Spark
  • 1.4 R
  • 1.5 sparklyr
  • 1.6 小结
  • 第2章 开始
  • 2.1 概述
  • 2.2 预备操作
  • 2.2.1 安装sparklyr
  • 2.2.2 安装Spark
  • 2.3 连接
  • 2.4 使用Spark
  • 2.4.1 网络接口
  • 2.4.2 分析
  • 2.4.3 建模
  • 2.4.4 数据
  • 2.4.5 扩展
  • 2.4.6 分布式R
  • 2.4.7 流式数据
  • 2.4.8 日志
  • 2.5 断开连接
  • 2.6 使用RStudio
  • 2.7 资源
  • 2.8 小结
  • 第3章 分析
  • 3.1 概述
  • 3.2 数据导入
  • 3.3 数据整理
  • 3.3.1 内置函数
  • 3.3.2 相关性
  • 3.4 可视化
  • 3.4.1 使用ggplot2
  • 3.4.2 使用dbplot
  • 3.5 建模
  • 3.6 沟通
  • 3.7 小结
  • 第4章 建模
  • 4.1 概述
  • 4.2 探索性数据分析
  • 4.3 特征工程
  • 4.4 监督式学习
  • 4.4.1 广义线性回归
  • 4.4.2 其他模型
  • 4.5 非监督式学习
  • 4.5.1 数据准备
  • 4.5.2 主题建模
  • 4.6 小结
  • 第5章 管道操作
  • 5.1 概述
  • 5.2 创建工作
  • 5.3 用例
  • 5.4 操作模式
  • 5.5 交互性
  • 5.6 部署
  • 5.6.1 批打分
  • 5.6.2 实时打分
  • 5.7 小结
  • 第6章 集群
  • 6.1 概述
  • 6.2 本地化
  • 6.2.1 管理器
  • 6.2.2 发行版
  • 6.3 云端
  • 6.3.1 亚马逊
  • 6.3.2 Databricks
  • 6.3.3 谷歌
  • 6.3.4 IBM
  • 6.3.5 微软
  • 6.3.6 Qubole
  • 6.4 Kubernetes
  • 6.5 工具
  • 6.5.1 RStudio
  • 6.5.2 Jupyter
  • 6.5.3 Livy
  • 6.6 小结
  • 第7章 连接
  • 7.1 概述
  • 7.1.1 边缘节点
  • 7.1.2 Spark主目录
  • 7.2 本地模式
  • 7.3 单机模式
  • 7.4 YARN
  • 7.4.1 YARN客户端
  • 7.4.2 YARN集群
  • 7.5 Livy
  • 7.6 Mesos
  • 7.7 Kubernetes
  • 7.8 云模式
  • 7.9 批量模式
  • 7.10 工具
  • 7.11 多次连接
  • 7.12 故障排除
  • 7.12.1 记录日志
  • 7.12.2 Spark Submit
  • 7.12.3 Windows
  • 7.13 小结
  • 第8章 数据
  • 8.1 概述
  • 8.2 读取数据
  • 8.2.1 路径
  • 8.2.2 模式
  • 8.2.3 内存
  • 8.2.4 列
  • 8.3 写入数据
  • 8.4 复制数据
  • 8.5 文件格式
  • 8.5.1 CSV
  • 8.5.2 JSON
  • 8.5.3 Parquet
  • 8.5.4 其他
  • 8.6 文件系统
  • 8.7 存储系统
  • 8.7.1 Hive
  • 8.7.2 Cassandra
  • 8.7.3 JDBC
  • 8.8 小结
  • 第9章 调试
  • 9.1 概述
  • 9.1.1 计算图
  • 9.1.2 时间线
  • 9.2 配置
  • 9.2.1 连接设置
  • 9.2.2 提交设置
  • 9.2.3 运行时设置
  • 9.2.4 sparklyr设置
  • 9.3 分区
  • 9.3.1 隐式分区
  • 9.3.2 显式分区
  • 9.4 缓存
  • 9.4.1 检查点
  • 9.4.2 内存
  • 9.5 重洗
  • 9.6 序列化
  • 9.7 配置文件
  • 9.8 小结
  • 第10章 扩展
  • 10.1 概述
  • 10.2 H2O
  • 10.3 图模型
  • 10.4 XGBoost
  • 10.5 深度学习
  • 10.6 基因组学
  • 10.7 空间数据
  • 10.8 故障排除
  • 10.9 小结
  • 第11章 分布式R
  • 11.1 概述
  • 11.2 用例
  • 11.2.1 定制解析器
  • 11.2.2 分区建模
  • 11.2.3 网格搜索
  • 11.2.4 Web API
  • 11.2.5 模拟
  • 11.3 分区
  • 11.4 分组
  • 11.5 列
  • 11.6 context参数
  • 11.7 函数
  • 11.8 程序包
  • 11.9 集群需求
  • 11.9.1 安装R
  • 11.9.2 Apache Arrow
  • 11.10 故障排除
  • 11.10.1 工作节点日志
  • 11.10.2 解决超时
  • 11.10.3 检查分区
  • 11.10.4 调试工作节点
  • 11.11 小结
  • 第12章 数据流
  • 12.1 概述
  • 12.2 转换
  • 12.2.1 分析
  • 12.2.2 建模
  • 12.2.3 管道
  • 12.2.4 分布式R
  • 12.3 Kafka
  • 12.4 Shiny
  • 12.5 小结
  • 第13章 社区贡献
  • 13.1 概述
  • 13.2 Spark API
  • 13.3 Spark扩展
  • 13.4 使用Scala代码
  • 13.5 小结
  • 附录A 补充参考代码
  • 作者介绍
  • 封面介绍
展开全部

评分及书评

评分不足
1个评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。