展开全部

主编推荐语

本书旨在带领你了解Hadoop生态系统。

内容简介

本书内容分为两大部分。第一部分(第1章到第5章)从非常高的层次介绍分布式计算,讨论如何在集群上运行计算。第二部分(第6章到第10章)更加具体地关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。

目录

  • 版权信息
  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 业界评论
  • 前言
  • 本书目标
  • 目标读者
  • 阅读方式
  • 内容概述
  • 编程和示例代码
  • GitHub仓库
  • 执行分布式作业
  • 使用示例代码
  • 反馈及作者联系方式
  • Safari® Books Online
  • 联系我们
  • 致谢
  • 电子书
  • 第一部分 分布式计算入门
  • 第1章 数据产品时代
  • 1.1 什么是数据产品
  • 1.2 使用Hadoop构建大规模数据产品
  • 1.3 数据科学流水线和Hadoop生态系统
  • 1.4 小结
  • 第2章 大数据操作系统
  • 2.1 基本概念
  • 2.2 Hadoop架构
  • 2.3 使用分布式文件系统
  • 2.4 使用分布式计算
  • 2.5 向YARN提交MapReduce作业
  • 2.6 小结
  • 第3章 Python 框架和 Hadoop Streaming
  • 3.1 Hadoop Streaming
  • 3.2 Python的MapReduce框架
  • 3.3 MapReduce进阶
  • 3.4 小结
  • 第4章 Spark 内存计算
  • 4.1 Spark基础
  • 4.2 基于PySpark的交互性Spark
  • 4.3 编写Spark应用程序
  • 4.4 小结
  • 第5章 分布式分析和模式
  • 5.1 键计算
  • 5.2 设计模式
  • 5.3 迈向最后一英里分析
  • 5.4 小结
  • 第二部分 大数据科学的工作流和工具
  • 第6章 数据挖掘和数据仓储
  • 6.1 Hive结构化数据查询
  • 6.2 HBase
  • 6.3 小结
  • 第7章 数据采集
  • 7.1 使用Sqoop导入关系数据
  • 7.2 使用Flume获取流式数据
  • 7.3 小结
  • 第8章 使用高级 API 进行分析
  • 8.1 Pig
  • 8.2 Spark高级API
  • 8.3 小结
  • 第9章 机器学习
  • 9.1 使用Spark进行可扩展的机器学习
  • 9.2 小结
  • 第10章 总结:分布式数据科学实战
  • 10.1 数据产品生命周期
  • 10.2 机器学习生命周期
  • 10.3 小结
  • 附录 A 创建 Hadoop 伪分布式开发环境
  • A.1 快速上手
  • A.2 设置Linux环境
  • A.2.1 创建Hadoop用户
  • A.2.2 配置SSH
  • A.2.3 安装Java
  • A.2.4 禁用IPv6
  • A.3 安装Hadoop
  • A.3.1 解压
  • A.3.2 环境
  • A.3.3 Hadoop配置
  • A.3.4 格式化NameNode
  • A.3.5 启动Hadoop
  • A.3.6 重启Hadoop
  • 附录 B 安装 Hadoop 生态系统产品
  • B.1 打包的Hadoop发行版
  • B.2 自己安装Apache Hadoop生态系统产品
  • B.2.1 基本安装和配置步骤
  • B.2.2 Sqoop特定配置
  • B.2.3 Hive特定配置
  • B.2.4 HBase特定配置
  • B.2.5 安装Spark
  • 术语表
  • 关于作者
  • 关于封面
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。