展开全部

主编推荐语

本书全景介绍了电商行业Flink实时数据仓库的搭建过程。

内容简介

本书在整个项目的搭建过程中,介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并穿插了大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、电商业务概述、数据仓库理论介绍和数据仓库建模等。最核心的内容是代码中对Flink的灵活应用,为读者展示了Flink处理数据的多种可能性。

本书最后还详细讲解了项目的性能调优技巧和实战案例,帮助读者掌握更多的实战经验。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1章 实时数据仓库概论
  • 1.1 什么是数据仓库
  • 1.2 走进实时数据仓库
  • 1.2.1 实时计算和离线计算
  • 1.2.2 实时数据仓库的构建目的
  • 1.2.3 实时技术发展
  • 1.2.4 实时数据仓库现状分析
  • 1.3 学前导读
  • 1.3.1 学习的基本要求
  • 1.3.2 你将学到什么
  • 1.4 本章总结
  • 第2章 需求分析与架构设计
  • 2.1 项目需求分析
  • 2.1.1 实时数据仓库项目产品描述
  • 2.1.2 项目流程图
  • 2.1.3 指标体系分析
  • 2.2 项目架构概述
  • 2.2.1 架构设计
  • 2.2.2 分层设计
  • 2.3 技术选型
  • 2.4 本章总结
  • 第3章 项目部署与框架搭建
  • 3.1 集群规划与服务器配置
  • 3.2 JDK与Hadoop安装
  • 3.2.1 虚拟机环境准备
  • 3.2.2 JDK安装
  • 3.2.3 Hadoop安装
  • 3.2.4 Hadoop分布式集群部署
  • 3.3 ZooKeeper与Kafka安装
  • 3.3.1 安装ZooKeeper
  • 3.3.2 Zookeeper集群启动、停止脚本
  • 3.3.3 安装Kafka
  • 3.3.4 Kafka集群启动、停止脚本
  • 3.3.5 Kafka Topic相关操作
  • 3.4 Flink的安装与部署
  • 3.4.1 YARN模式安装
  • 3.4.2 任务部署
  • 3.5 本章总结
  • 第4章 数据仓库建模理论
  • 4.1 数据仓库理论准备
  • 4.1.1 数据建模概述
  • 4.1.2 关系模型与范式理论
  • 4.1.3 维度模型
  • 4.1.4 维度建模理论之事实表
  • 4.1.5 维度建模理论之维度表
  • 4.2 数据仓库建模实践
  • 4.2.1 名词概念
  • 4.2.2 为什么要分层
  • 4.2.3 数据仓库构建流程
  • 4.3 本章总结
  • 第5章 构建ODS层之用户行为数据采集
  • 5.1 日志生成
  • 5.1.1 数据埋点
  • 5.1.2 目标数据
  • 5.1.3 数据模拟
  • 5.2 采集日志的Flume
  • 5.2.1 Flume组件
  • 5.2.2 Flume安装
  • 5.2.3 采集日志Flume配置
  • 5.2.4 Flume的拦截器
  • 5.2.5 采集日志Flume启动、停止脚本
  • 5.3 本章总结
  • 第6章 构建ODS层之业务数据采集
  • 6.1 电商业务概述
  • 6.1.1 电商业务流程
  • 6.1.2 电商常识
  • 6.1.3 电商表结构
  • 6.2 数据同步概述
  • 6.2.1 数据同步策略
  • 6.2.2 数据同步工具选择
  • 6.3 业务数据模拟
  • 6.3.1 MySQL安装
  • 6.3.2 数据模拟流程
  • 6.4 Maxwell数据采集
  • 6.4.1 MySQL中的binlog
  • 6.4.2 Maxwell工作原理
  • 6.4.3 业务数据采集
  • 6.4.4 首日全量同步
  • 6.5 本章总结
  • 第7章 构建DIM层
  • 7.1 开发环境准备
  • 7.1.1 IDEA开发环境准备
  • 7.1.2 HBase与Phoenix
  • 7.2 关键技术解读
  • 7.2.1 Flink CDC
  • 7.2.2 配置表设计
  • 7.3 DIM层代码编写
  • 7.3.1 接收Kafka数据过滤脏数据
  • 7.3.2 动态拆分维度表数据
  • 7.3.3 将流中的数据保存至Phoenix
  • 7.3.4 测试
  • 7.4 本章总结
  • 第8章 构建DWD层
  • 8.1 概述
  • 8.2 流量域五大事务事实表
  • 8.2.1 思路梳理
  • 8.2.2 代码编写
  • 8.3 交易域加购事务事实表
  • 8.3.1 思路梳理
  • 8.3.2 编写代码
  • 8.4 交易域下单事务事实表
  • 8.4.1 思路梳理
  • 8.4.2 代码编写
  • 8.5 交易域取消订单事务事实表
  • 8.5.1 思路梳理
  • 8.5.2 代码编写
  • 8.6 交易域支付成功事务事实表
  • 8.6.1 思路梳理
  • 8.6.2 代码编写
  • 8.7 交易域退单事务事实表
  • 8.7.1 思路梳理
  • 8.7.2 代码编写
  • 8.8 交易域退款成功事务事实表
  • 8.8.1 思路梳理
  • 8.8.2 代码编写
  • 8.9 事实表动态分流
  • 8.9.1 思路梳理
  • 8.9.2 代码编写
  • 8.10 本章总结
  • 第9章 构建DWS层
  • 9.1 概述
  • 9.2 环境准备
  • 9.2.1 安装Redis
  • 9.2.2 安装ClickHouse
  • 9.3 流量域关键词粒度页面浏览各窗口汇总表
  • 9.3.1 思路梳理
  • 9.3.2 代码编写
  • 9.4 流量域版本—渠道—地区—访客类别粒度页面浏览各窗口汇总表
  • 9.4.1 思路梳理
  • 9.4.2 代码编写
  • 9.5 流量域页面浏览各窗口汇总表
  • 9.5.1 思路梳理
  • 9.5.2 代码编写
  • 9.6 用户域用户登录各窗口汇总表
  • 9.6.1 思路梳理
  • 9.6.2 代码编写
  • 9.7 用户域用户注册各窗口汇总表
  • 9.7.1 思路梳理
  • 9.7.2 代码编写
  • 9.8 交易域加购各窗口汇总表
  • 9.8.1 思路梳理
  • 9.8.2 代码编写
  • 9.9 交易域支付各窗口汇总表
  • 9.9.1 思路梳理
  • 9.9.2 代码编写
  • 9.10 交易域下单各窗口汇总表
  • 9.10.1 思路梳理
  • 9.10.2 代码编写
  • 9.11 交易域SKU粒度下单各窗口汇总表
  • 9.11.1 思路梳理
  • 9.11.2 代码编写
  • 9.12 交易域省份粒度下单各窗口汇总表
  • 9.12.1 思路梳理
  • 9.12.2 代码编写
  • 9.13 交易域品牌—分类—用户粒度退单各窗口汇总表
  • 9.13.1 思路梳理
  • 9.13.2 代码编写
  • 9.14 本章总结
  • 第10章 数据可视化大屏
  • 10.1 需求分析
  • 10.2 Sugar BI介绍
  • 10.2.1 简介
  • 10.2.2 使用入门
  • 10.2.3 效果展示
  • 10.3 本章总结
  • 第11章 性能调优理论与实践
  • 11.1 项目环境概述
  • 11.1.1 集群环境
  • 11.1.2 任务提交测试
  • 11.2 YARN调优策略
  • 11.2.1 YARN内存调优
  • 11.2.2 YARN CPU调优
  • 11.3 Flink内存模型
  • 11.3.1 TaskManager内存模型
  • 11.3.2 JobManager内存模型
  • 11.4 并行度与slot
  • 11.4.1 Flink的并行度配置
  • 11.4.2 TaskManager slot个数配置
  • 11.5 状态调优
  • 11.5.1 Flink的状态编程概述
  • 11.5.2 检查点相关配置
  • 11.5.3 开启状态访问性能监控
  • 11.5.4 RocksDB状态后端的性能优化手段
  • 11.5.5 开启分区索引和过滤器功能
  • 11.5.6 调整预定义选项
  • 11.5.7 手动调整参数
  • 11.6 反压
  • 11.6.1 反压概述
  • 11.6.2 如何定位反压
  • 11.6.3 反压的原因及解决办法
  • 11.7 数据倾斜
  • 11.7.1 判断数据倾斜
  • 11.7.2 解决数据倾斜
  • 11.8 Job优化
  • 11.8.1 为算子指定UUID
  • 11.8.2 链路延迟监控
  • 11.8.3 开启对象重用
  • 11.8.4 细粒度滑动窗口优化
  • 11.8.5 提前计算滚动窗口
  • 11.9 Flink SQL优化
  • 11.9.1 设置空闲状态保留时间
  • 11.9.2 开启MiniBatch功能
  • 11.9.3 开启LocalGlobal优化
  • 11.9.4 开启Split Distinct优化
  • 11.9.5 使用FILTER语法
  • 11.10 Flink对接Kafka优化
  • 11.10.1 Flink并行度与Kafka主题分区数
  • 11.10.2 指定Watermark空闲等待
  • 11.10.3 动态发现Kafka分区
  • 11.11 DIM层调优实操
  • 11.11.1 YARN资源配置分析
  • 11.11.2 Flink内存分配分析
  • 11.11.3 并行度与slot个数配置分析
  • 11.11.4 状态相关配置分析
  • 11.11.5 DIM层任务初次提交测试
  • 11.11.6 反压情况分析
  • 11.11.7 数据倾斜情况分析
  • 11.11.8 与Kakfa对接的相关优化措施
  • 11.11.9 任务重启
  • 11.11.10 最终提交命令
  • 11.12 DWD层调优实操
  • 11.12.1 DWD层任务初次提交测试
  • 11.12.2 反压情况分析
  • 11.12.3 数据倾斜情况分析
  • 11.12.4 最终提交命令
  • 11.13 本章总结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。