互联网
类型
可以朗读
语音朗读
173千字
字数
2023-10-01
发行日期
展开全部
主编推荐语
本书全景介绍了电商行业Flink实时数据仓库的搭建过程。
内容简介
本书在整个项目的搭建过程中,介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并穿插了大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、电商业务概述、数据仓库理论介绍和数据仓库建模等。最核心的内容是代码中对Flink的灵活应用,为读者展示了Flink处理数据的多种可能性。
本书最后还详细讲解了项目的性能调优技巧和实战案例,帮助读者掌握更多的实战经验。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 实时数据仓库概论
- 1.1 什么是数据仓库
- 1.2 走进实时数据仓库
- 1.2.1 实时计算和离线计算
- 1.2.2 实时数据仓库的构建目的
- 1.2.3 实时技术发展
- 1.2.4 实时数据仓库现状分析
- 1.3 学前导读
- 1.3.1 学习的基本要求
- 1.3.2 你将学到什么
- 1.4 本章总结
- 第2章 需求分析与架构设计
- 2.1 项目需求分析
- 2.1.1 实时数据仓库项目产品描述
- 2.1.2 项目流程图
- 2.1.3 指标体系分析
- 2.2 项目架构概述
- 2.2.1 架构设计
- 2.2.2 分层设计
- 2.3 技术选型
- 2.4 本章总结
- 第3章 项目部署与框架搭建
- 3.1 集群规划与服务器配置
- 3.2 JDK与Hadoop安装
- 3.2.1 虚拟机环境准备
- 3.2.2 JDK安装
- 3.2.3 Hadoop安装
- 3.2.4 Hadoop分布式集群部署
- 3.3 ZooKeeper与Kafka安装
- 3.3.1 安装ZooKeeper
- 3.3.2 Zookeeper集群启动、停止脚本
- 3.3.3 安装Kafka
- 3.3.4 Kafka集群启动、停止脚本
- 3.3.5 Kafka Topic相关操作
- 3.4 Flink的安装与部署
- 3.4.1 YARN模式安装
- 3.4.2 任务部署
- 3.5 本章总结
- 第4章 数据仓库建模理论
- 4.1 数据仓库理论准备
- 4.1.1 数据建模概述
- 4.1.2 关系模型与范式理论
- 4.1.3 维度模型
- 4.1.4 维度建模理论之事实表
- 4.1.5 维度建模理论之维度表
- 4.2 数据仓库建模实践
- 4.2.1 名词概念
- 4.2.2 为什么要分层
- 4.2.3 数据仓库构建流程
- 4.3 本章总结
- 第5章 构建ODS层之用户行为数据采集
- 5.1 日志生成
- 5.1.1 数据埋点
- 5.1.2 目标数据
- 5.1.3 数据模拟
- 5.2 采集日志的Flume
- 5.2.1 Flume组件
- 5.2.2 Flume安装
- 5.2.3 采集日志Flume配置
- 5.2.4 Flume的拦截器
- 5.2.5 采集日志Flume启动、停止脚本
- 5.3 本章总结
- 第6章 构建ODS层之业务数据采集
- 6.1 电商业务概述
- 6.1.1 电商业务流程
- 6.1.2 电商常识
- 6.1.3 电商表结构
- 6.2 数据同步概述
- 6.2.1 数据同步策略
- 6.2.2 数据同步工具选择
- 6.3 业务数据模拟
- 6.3.1 MySQL安装
- 6.3.2 数据模拟流程
- 6.4 Maxwell数据采集
- 6.4.1 MySQL中的binlog
- 6.4.2 Maxwell工作原理
- 6.4.3 业务数据采集
- 6.4.4 首日全量同步
- 6.5 本章总结
- 第7章 构建DIM层
- 7.1 开发环境准备
- 7.1.1 IDEA开发环境准备
- 7.1.2 HBase与Phoenix
- 7.2 关键技术解读
- 7.2.1 Flink CDC
- 7.2.2 配置表设计
- 7.3 DIM层代码编写
- 7.3.1 接收Kafka数据过滤脏数据
- 7.3.2 动态拆分维度表数据
- 7.3.3 将流中的数据保存至Phoenix
- 7.3.4 测试
- 7.4 本章总结
- 第8章 构建DWD层
- 8.1 概述
- 8.2 流量域五大事务事实表
- 8.2.1 思路梳理
- 8.2.2 代码编写
- 8.3 交易域加购事务事实表
- 8.3.1 思路梳理
- 8.3.2 编写代码
- 8.4 交易域下单事务事实表
- 8.4.1 思路梳理
- 8.4.2 代码编写
- 8.5 交易域取消订单事务事实表
- 8.5.1 思路梳理
- 8.5.2 代码编写
- 8.6 交易域支付成功事务事实表
- 8.6.1 思路梳理
- 8.6.2 代码编写
- 8.7 交易域退单事务事实表
- 8.7.1 思路梳理
- 8.7.2 代码编写
- 8.8 交易域退款成功事务事实表
- 8.8.1 思路梳理
- 8.8.2 代码编写
- 8.9 事实表动态分流
- 8.9.1 思路梳理
- 8.9.2 代码编写
- 8.10 本章总结
- 第9章 构建DWS层
- 9.1 概述
- 9.2 环境准备
- 9.2.1 安装Redis
- 9.2.2 安装ClickHouse
- 9.3 流量域关键词粒度页面浏览各窗口汇总表
- 9.3.1 思路梳理
- 9.3.2 代码编写
- 9.4 流量域版本—渠道—地区—访客类别粒度页面浏览各窗口汇总表
- 9.4.1 思路梳理
- 9.4.2 代码编写
- 9.5 流量域页面浏览各窗口汇总表
- 9.5.1 思路梳理
- 9.5.2 代码编写
- 9.6 用户域用户登录各窗口汇总表
- 9.6.1 思路梳理
- 9.6.2 代码编写
- 9.7 用户域用户注册各窗口汇总表
- 9.7.1 思路梳理
- 9.7.2 代码编写
- 9.8 交易域加购各窗口汇总表
- 9.8.1 思路梳理
- 9.8.2 代码编写
- 9.9 交易域支付各窗口汇总表
- 9.9.1 思路梳理
- 9.9.2 代码编写
- 9.10 交易域下单各窗口汇总表
- 9.10.1 思路梳理
- 9.10.2 代码编写
- 9.11 交易域SKU粒度下单各窗口汇总表
- 9.11.1 思路梳理
- 9.11.2 代码编写
- 9.12 交易域省份粒度下单各窗口汇总表
- 9.12.1 思路梳理
- 9.12.2 代码编写
- 9.13 交易域品牌—分类—用户粒度退单各窗口汇总表
- 9.13.1 思路梳理
- 9.13.2 代码编写
- 9.14 本章总结
- 第10章 数据可视化大屏
- 10.1 需求分析
- 10.2 Sugar BI介绍
- 10.2.1 简介
- 10.2.2 使用入门
- 10.2.3 效果展示
- 10.3 本章总结
- 第11章 性能调优理论与实践
- 11.1 项目环境概述
- 11.1.1 集群环境
- 11.1.2 任务提交测试
- 11.2 YARN调优策略
- 11.2.1 YARN内存调优
- 11.2.2 YARN CPU调优
- 11.3 Flink内存模型
- 11.3.1 TaskManager内存模型
- 11.3.2 JobManager内存模型
- 11.4 并行度与slot
- 11.4.1 Flink的并行度配置
- 11.4.2 TaskManager slot个数配置
- 11.5 状态调优
- 11.5.1 Flink的状态编程概述
- 11.5.2 检查点相关配置
- 11.5.3 开启状态访问性能监控
- 11.5.4 RocksDB状态后端的性能优化手段
- 11.5.5 开启分区索引和过滤器功能
- 11.5.6 调整预定义选项
- 11.5.7 手动调整参数
- 11.6 反压
- 11.6.1 反压概述
- 11.6.2 如何定位反压
- 11.6.3 反压的原因及解决办法
- 11.7 数据倾斜
- 11.7.1 判断数据倾斜
- 11.7.2 解决数据倾斜
- 11.8 Job优化
- 11.8.1 为算子指定UUID
- 11.8.2 链路延迟监控
- 11.8.3 开启对象重用
- 11.8.4 细粒度滑动窗口优化
- 11.8.5 提前计算滚动窗口
- 11.9 Flink SQL优化
- 11.9.1 设置空闲状态保留时间
- 11.9.2 开启MiniBatch功能
- 11.9.3 开启LocalGlobal优化
- 11.9.4 开启Split Distinct优化
- 11.9.5 使用FILTER语法
- 11.10 Flink对接Kafka优化
- 11.10.1 Flink并行度与Kafka主题分区数
- 11.10.2 指定Watermark空闲等待
- 11.10.3 动态发现Kafka分区
- 11.11 DIM层调优实操
- 11.11.1 YARN资源配置分析
- 11.11.2 Flink内存分配分析
- 11.11.3 并行度与slot个数配置分析
- 11.11.4 状态相关配置分析
- 11.11.5 DIM层任务初次提交测试
- 11.11.6 反压情况分析
- 11.11.7 数据倾斜情况分析
- 11.11.8 与Kakfa对接的相关优化措施
- 11.11.9 任务重启
- 11.11.10 最终提交命令
- 11.12 DWD层调优实操
- 11.12.1 DWD层任务初次提交测试
- 11.12.2 反压情况分析
- 11.12.3 数据倾斜情况分析
- 11.12.4 最终提交命令
- 11.13 本章总结
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。