主编推荐语
Apache Flink大数据框架的原理和流、批处理的实践,适合大数据学习爱好者和入门读者。
内容简介
本书讲述Apache Flink大数据框架的原理,以及如果将Apache Flink应用于大数据的实时流处理、批处理、批流一体分析等各个场景。通过原理深入学习和实践示例、案例的学习应用,使读者了解并掌握Apache Flink流处理的框架的基本原理和技能,接近理论与实践的距离。
全书共分为8章,主要内容包括Flink架构与集群安装、Flink开发环境准备(基于IntelliJIDEA和Maven)、开发Flink实时数据处理程序、Flink流数据分析、时间和水印概念、窗口操作、状态和容错、侧输出流、Flink流连接器、Flink流处理案例、开发Flink批数据处理程序、使用TableAPI进行数据处理、FlinkonYARN、基于Flink构建批流一体数仓、基于Flink和Iceberg数据湖构建实时数仓。
本书源码全部在Apache Flink1.13.2上调试成功,所有示例和案例均提供Scala语言和Java语言两套API的实现(第8章除外),供读者参考。
本书系统讲解了Apache Flink大数据框架的原理和流、批处理的开发实践,内容全面、实例丰富、可操作性强,做到了理论与实践相结合。本书适合大数据学习爱好者、想要入门Apache Flink的读者作为入门和提高的技术参考书,也适合用作大中专院校大数据专业相关的学生和老师的教材或教学参考书。
目录
- 版权信息
- 作者简介
- 内容简介
- PREFACE前言
- 第1章Flink架构与集群安装
- 1.1 Flink简介
- 1.2 Flink应用场景
- 1.3 Flink体系架构
- 1.4 Flink集群安装
- 第2章Flink开发环境准备
- 2.1 安装和配置
- 2.2 使用IntelliJ IDEA+Maven开发Flink项目
- 2.3 Flink相关概念
- 第3章开发Flink实时数据处理程序
- 3.1 Flink流处理程序编程模型
- 3.2 Flink支持的数据源
- 3.3 Flink数据转换
- 3.4 Flink流数据分区
- 3.5 Flink数据接收器
- 3.6 时间和水印概念
- 3.7 窗口操作
- 3.8 低级操作
- 3.9 状态和容错
- 3.10 侧输出流
- 3.11 Flink流连接器
- 3.12 其他
- 3.13 Flink流处理案例
- 第4章开发Flink批数据处理程序
- 4.1 Flink批处理程序编程模型
- 4.2 数据源
- 4.3 数据转换
- 4.4 数据接收器
- 4.5 广播变量
- 4.6 分布式缓存
- 4.7 参数传递
- 4.8 数据集中的拉链操作
- 4.9 Flink批处理示例
- 第5章使用Table API进行数据处理
- 5.1 依赖
- 5.2 Table API与SQL编程模式
- 5.3 Table API
- 5.4 Table API与DataStream API集成
- 5.5 Table API实时流处理案例
- 第6章Flink on YARN
- 6.1 Flink on YARN session
- 6.2 Flink on YARN支持的部署模式
- 第8章基于Flink和Iceberg数据湖构建实时数仓
- 8.1 现代数据湖概述
- 8.2 基于Flink+Iceberg构建企业数据湖
- 8.3 基于Flink+Iceberg构建准实时数仓
- 图书推荐
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。