展开全部

主编推荐语

本书循序渐进地介绍了Flink生态系统主流的大数据开发技术。

内容简介

本书作为Flink的入门书,从Flink核心编程语言Scala讲起,涵盖当前Flink主流的开发组件。

以实操为主,深入讲解每一个操作步骤,包括DataSet API离线数据处理、Flink SQL快速结构化数据处理、DataStream实时数据处理,同时包括案例讲解、源码剖析、常用Shell命令和Scala API详解。

即使没有任何Flink基础的读者也可以对照书中的步骤成功搭建属于自己的Flink集群,是一本真正的实操指南书籍。

本书可作为大数据开发人员的随身手册,也可作为Flink新手入门的指导书籍,以及大数据从业者的参考用书。

目录

  • 版权信息
  • 作者简介
  • 内容简介
  • 前言
  • 第1章 初识Flink
  • 1.1 大数据开发总体架构
  • 1.2 什么是Flink
  • 1.3 Flink的应用场景
  • 1.4 流计算框架对比
  • 1.5 Flink的主要组件
  • 1.6 Flink编程模型
  • 1.6.1 数据集
  • 1.6.2 编程接口
  • 1.6.3 程序结构
  • 1.7 快速体验Flink程序
  • 1.7.1 IntelliJ IDEA安装Scala插件
  • 1.7.2 IntelliJ IDEA创建Flink项目
  • 1.7.3 示例:批处理单词计数
  • 1.7.4 示例:流处理单词计数
  • 第2章 Flink运行架构及原理
  • 2.1 Flink运行时架构
  • 2.1.1 YARN集群架构
  • 2.1.2 Flink Standalone架构
  • 2.1.3 Flink On YARN的架构
  • 2.2 Flink任务调度原理
  • 2.2.1 任务链
  • 2.2.2 并行度
  • 2.2.3 共享Task Slot
  • 2.2.4 数据流
  • 2.2.5 执行图
  • 2.2.6 执行计划
  • 2.3 Flink数据分区
  • 2.3.1 分区数量
  • 2.3.2 分区策略
  • 第3章 Flink安装及部署
  • 3.1 Flink集群搭建
  • 3.1.1 Flink本地模式搭建
  • 3.1.2 Flink Standalone搭建
  • 3.1.3 Flink On YARN搭建
  • 3.2 Flink HA模式
  • 3.2.1 Flink Standalone模式的HA架构
  • 3.2.2 Flink Standalone模式HA集群搭建
  • 3.2.3 Flink On YARN模式HA集群搭建
  • 3.3 Flink命令行界面
  • 3.4 Flink应用提交
  • 3.5 Flink Shell的使用
  • 第4章 Flink DataStream API
  • 4.1 基本概念
  • 4.2 执行模式
  • 4.3 作业流程
  • 4.4 程序结构
  • 4.5 Source数据源
  • 4.5.1 基本数据源
  • 4.5.2 高级数据源
  • 4.5.3 自定义数据源
  • 4.6 Transformation数据转换
  • 4.7 Sink数据输出
  • 4.8 数据类型与序列化
  • 4.9 分区策略
  • 4.9.1 内置分区策略
  • 4.9.2 自定义分区策略
  • 4.10 窗口计算
  • 4.10.1 事件时间
  • 4.10.2 窗口分类
  • 4.10.3 窗口函数
  • 4.10.4 触发器
  • 4.10.5 清除器
  • 4.11 水印
  • 4.11.1 计算规则
  • 4.11.2 允许延迟与侧道输出
  • 4.11.3 生成策略
  • 4.12 状态管理
  • 4.12.1 Keyed State
  • 4.12.2 Operator State
  • 4.13 容错机制
  • 4.13.1 Checkpoint
  • 4.13.2 Barrier
  • 4.13.3 重启与故障恢复策略
  • 4.13.4 Savepoint
  • 4.14 案例分析:计算5秒内输入的单词数量
  • 4.15 案例分析:统计5分钟内每个用户产生的日志数量
  • 4.16 案例分析:统计24小时内每个用户的订单平均消费额
  • 4.17 案例分析:计算5秒内每个信号灯通过的汽车数量
  • 4.18 案例分析:Flink整合Kafka计算实时单词数量
  • 4.19 案例分析:天猫双十一实时交易额统计
  • 4.19.1 创建自定义数据源
  • 4.19.2 计算各个分类的订单总额
  • 4.19.3 计算全网销售总额与分类Top3
  • 第5章 Flink Table API&SQL
  • 5.1 基本概念
  • 5.1.1 计划器
  • 5.1.2 API架构
  • 5.1.3 程序结构
  • 5.2 动态表
  • 5.2.1 流映射为动态表
  • 5.2.2 连续查询
  • 5.2.3 动态表转换为流
  • 5.3 TableEnvironment API
  • 5.3.1 基本概念
  • 5.3.2 创建TableEnvironment
  • 5.3.3 示例:简单订单统计
  • 5.4 Table API
  • 5.4.1 基本概念
  • 5.4.2 示例:订单分组计数
  • 5.4.3 示例:每小时订单分组求平均值
  • 5.4.4 关系操作
  • 5.5 SQL API
  • 5.5.1 DDL操作
  • 5.5.2 DML操作
  • 5.5.3 DQL操作
  • 5.5.4 窗口函数
  • 5.5.5 窗口聚合
  • 5.5.6 分组聚合
  • 5.5.7 OVER聚合
  • 5.5.8 连接查询
  • 5.6 TopN查询
  • 5.6.1 OVER子句
  • 5.6.2 示例:计算产品类别销售额TopN
  • 5.6.3 示例:搜索词热度统计
  • 5.6.4 窗口TopN
  • 5.7 Catalog元数据管理
  • 5.8 Flink SQL整合Kafka
  • 5.8.1 基本概念
  • 5.8.2 示例:Flink SQL整合Kafka实现实时ETL
  • 5.9 Flink SQL CLI
  • 5.9.1 启动SQL CLI
  • 5.9.2 执行SQL查询
  • 5.9.3 可视化结果模式
  • 5.10 Flink SQL整合Hive
  • 5.10.1 整合步骤
  • 5.10.2 Table API操作Hive
  • 5.10.3 示例:Flink SQL整合Hive分析搜狗用户搜索日志
  • 5.11 案例分析:Flink SQL实时单词计数
  • 5.12 案例分析:Flink SQL实时计算5秒内用户订单总金额
  • 5.13 案例分析:微博用户行为分析
  • 5.13.1 离线与实时计算业务架构
  • 5.13.2 Flume数据采集架构
  • 5.13.3 Kafka消息队列架构
  • 5.14 案例分析:Flink SQL智慧交通数据分析
  • 5.14.1 项目介绍
  • 5.14.2 数据准备
  • 5.14.3 统计正常卡口数量
  • 5.14.4 统计车流量排名前3的卡口号
  • 5.14.5 统计每个卡口通过速度最快的前3辆车
  • 5.14.6 车辆轨迹分析
  • 第6章 Flink内核源码
  • 6.1 流图
  • 6.1.1 StreamGraph核心对象
  • 6.1.2 StreamGraph生成过程
  • 6.2 作业图
  • 6.2.1 JobGraph的核心对象
  • 6.2.2 JobGraph的生成过程
  • 6.3 执行图
  • 6.3.1 ExecutionGraph的核心对象
  • 6.3.2 ExecutionGraph的生成过程
  • 第7章 Gelly图计算
  • 7.1 什么是Gelly
  • 7.2 第一个Gelly程序
  • 7.3 Gelly数据结构
  • 7.4 如何使用Gelly
  • 7.5 图操作
  • 7.5.1 基本操作
  • 7.5.2 属性操作
  • 7.5.3 结构操作
  • 7.5.4 连接操作
  • 7.6 图常用API
  • 7.6.1 创建图
  • 7.6.2 图的转换
  • 7.6.3 图的添加与移除
  • 7.6.4 图的邻域方法
  • 7.7 案例分析:Gelly计算社交网络中粉丝的平均年龄
展开全部

评分及书评

评分不足
2个评分
  • 用户头像
    给这本书评了
    5.0

    当今互联网已进入大数据时代,大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域。各行各业每天都在产生大量的数据,数据计量单位已从 ByteKBMBGBTB 发展到 PBEBZBYB 甚至 BBNBDB 级。预计未来几年,全球数据将呈爆炸式增长。谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握大数据技术的人才,大数据相关人才出现了供不应求的状况。

      转发
      评论

    出版方

    清华大学出版社

    清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。