展开全部

主编推荐语

阿里巴巴大数据开发专家撰写,只讲实用有效的“招式”。

内容简介

本书分为三篇。第一篇:从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;第二篇:介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;第三篇:集中介绍实时数据处理的各项技术,包含Storm、Spark Steaming、Flink、Beam等。

目录

  • 版权信息
  • 前言
  • 第一篇 数据大图和数据平台大图
  • 第1章 数据大图
  • 1.1 数据流程
  • 1.2 数据技术
  • 1.3 数据相关从业者和角色
  • 1.4 本章小结
  • 第2章 数据平台大图
  • 2.1 离线数据平台的架构、技术和设计
  • 2.2 实时数据平台的架构、技术和设计
  • 2.3 数据管理
  • 2.4 本章小结
  • 第二篇 离线数据开发:大数据开发的主战场
  • 第3章 Hadoop原理实践
  • 3.1 开启大数据时代的Hadoop
  • 3.2 HDFS和MapReduce优缺点分析
  • 3.3 HDFS和MapReduce基本架构
  • 3.4 MapReduce内部原理实践
  • 3.5 本章小结
  • 第4章 Hive原理实践
  • 4.1 离线大数据处理的主要技术:Hive
  • 4.2 Hive SQL
  • 4.3 Hive SQL执行原理图解
  • 4.4 Hive函数
  • 4.5 其他SQL on Hadoop技术
  • 4.6 本章小结
  • 第5章 Hive优化实践
  • 5.1 离线数据处理的主要挑战:数据倾斜
  • 5.2 Hive优化
  • 5.3 join无关的优化
  • 5.4 大表join小表优化
  • 5.5 大表join大表优化
  • 5.6 本章小结
  • 第6章 维度建模技术实践
  • 6.1 大数据建模的主要技术:维度建模
  • 6.2 维度表设计
  • 6.3 深入事实表
  • 6.4 大数据的维度建模实践
  • 6.5 本章小结
  • 第7章 Hadoop数据仓库开发实战
  • 7.1 业务需求
  • 7.2 Hadoop数据仓库架构设计
  • 7.3 Hadoop数据仓库规范设计
  • 7.4 FutureRetailer数据仓库构建实践
  • 7.5 数据平台新架构——数据湖
  • 7.6 本章小结
  • 第三篇 实时数据开发:大数据开发的未来
  • 第8章 Storm流计算开发
  • 8.1 流计算技术的鼻祖:Storm技术
  • 8.2 Storm实时开发示例
  • 8.3 Storm高级原语Trident
  • 8.4 Storm关键技术
  • 8.5 本章小结
  • 第9章 Spark Streaming流计算开发
  • 9.1 Spark生态和核心概念
  • 9.2 Spark生态的流计算技术:Spark Streaming
  • 9.3 Spark Streaming的实时开发示例
  • 9.4 Spark Streaming调优实践
  • 9.5 Spark Streaming关键技术
  • 9.6 本章小结
  • 第10章 Flink流计算开发
  • 10.1 流计算技术新贵:Flink
  • 10.2 Flink API
  • 10.3 Flink实时开发示例
  • 10.4 Flink关键技术详解
  • 10.5 本章小结
  • 第11章 Beam技术
  • 11.1 意图一统流计算的Beam
  • 11.2 Beam技术核心:Beam Model
  • 11.3 Beam SDK
  • 11.4 Beam窗口详解
  • 11.5 本章小结
  • 第12章 Stream SQL实时开发实战
  • 12.1 流计算SQL原理和架构
  • 12.2 流计算SQL:未来主要的实时开发技术
  • 12.3 Stream SQL
  • 12.4 Stream SQL的实时开发实战
  • 12.5 撤回机制
  • 12.6 本章小结
  • 参考文献
展开全部

评分及书评

4.5
4个评分
  • 用户头像
    给这本书评了
    5.0

    通过阅读本书,读者能建立自己的大数据开发知识体系和图谱,掌握数据开发的各种技术(包括有关概念、原理、架构以及实际的开发和优化技巧等),并能对实际项目中的数据开发提供指导和参考。大数据技术日新月异,由于篇幅和时间限制,书中仅讲述了当前主要和主流的数据相关技术,如果读者对大数据开发有兴趣,本书将是首选的入门读物。

      转发
      评论
      用户头像
      给这本书评了
      5.0

      “不谋万世者,不足谋一时;不谋全局者,不足谋一域。” 作为本书的开篇,本篇正是基于此考虑撰写的。本篇分为两章,主要站在全局的角度对数据、数据技术、数据相关从业者和角色、离线和实时数据平台架构等给出整体和大图形式的介绍

        转发
        评论
        用户头像
        给这本书评了
        5.0

        本书从流式处理和离线处理两方面讲解了现有主流框架的特性,描述了各个框架的应用场景、优点、缺点、相关的衍生内容、使用 API 等等,满足了各个岗位人员的不同诉求,对于业务人员来讲可以重点关注原理和特性部分,对于工程人员来讲,可以关注应用部分。

          转发
          评论

        出版方

        机械工业出版社有限公司

        机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。