互联网
类型
可以朗读
语音朗读
118千字
字数
2023-08-01
发行日期
展开全部
主编推荐语
全景介绍在线教育数据仓库搭建过程,适合编程基础读者学习。
内容简介
在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并在其中穿插了许多大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、在线教育业务概述、数据仓库理论介绍和数据仓库建模等。
本书适合具有一定编程基础的读者学习。通过阅读本书,读者可以快速地了解数据仓库,全面掌握数据仓库的相关技术。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 大数据与数据仓库概论
- 1.1 什么是数据仓库
- 1.2 数据仓库的演进历史
- 1.3 数据仓库技术
- 1.4 数据仓库基本架构
- 1.5 数据库和数据仓库的区别
- 1.6 学前导读
- 1.6.1 学习的基础要求
- 1.6.2 你将学到什么
- 1.7 本章总结
- 第2章 项目需求描述
- 2.1 前期调研
- 2.2 项目架构分析
- 2.2.1 在线教育数据仓库产品描述
- 2.2.2 系统功能结构
- 2.2.3 系统流程图
- 2.3 项目业务概述
- 2.3.1 采集模块业务描述
- 2.3.2 数据仓库需求业务描述
- 2.3.3 数据可视化业务描述
- 2.4 系统运行环境
- 2.4.1 硬件环境
- 2.4.2 软件环境
- 2.5 本章总结
- 第3章 项目部署的环境准备
- 3.1 Linux环境准备
- 3.1.1 安装VMware
- 3.1.2 安装CentOS
- 3.1.3 远程终端安装
- 3.2 Linux环境配置
- 3.2.1 网络配置
- 3.2.2 网络IP地址配置
- 3.2.3 主机名配置
- 3.2.4 防火墙配置
- 3.2.5 一般用户设置
- 3.3 Hadoop环境搭建
- 3.3.1 虚拟机环境准备
- 3.3.2 安装JDK
- 3.3.3 安装Hadoop
- 3.3.4 Hadoop分布式集群部署
- 3.4 本章总结
- 第4章 用户行为数据采集模块
- 4.1 日志生成
- 4.1.1 数据埋点
- 4.1.2 用户行为日志格式
- 4.1.3 安装MySQL
- 4.1.4 数据模拟
- 4.2 消息队列Kafka
- 4.2.1 安装ZooKeeper
- 4.2.2 ZooKeeper集群启动、停止脚本
- 4.2.3 安装Kafka
- 4.2.4 Kafka集群启动、停止脚本
- 4.2.5 Kafka topic相关操作
- 4.3 采集日志的Flume
- 4.3.1 Flume组件
- 4.3.2 安装Flume
- 4.3.3 采集日志Flume配置
- 4.3.4 Flume的拦截器
- 4.3.5 采集日志Flume启动、停止脚本
- 4.4 消费Kafka日志的Flume
- 4.4.1 日志消费层Flume配置
- 4.4.2 时间戳拦截器
- 4.4.3 日志消费层Flume启动、停止脚本
- 4.4.4 数据通道测试
- 4.5 采集通道启动、停止脚本
- 4.6 本章总结
- 第5章 业务数据采集模块
- 5.1 在线教育业务概述
- 5.1.1 在线教育业务流程
- 5.1.2 在线教育表结构
- 5.1.3 数据同步策略
- 5.1.4 数据同步工具选择
- 5.2 业务数据采集
- 5.2.1 业务数据模型梳理
- 5.2.2 安装DataX
- 5.2.3 安装Maxwell
- 5.2.4 全量数据同步
- 5.2.5 增量数据同步
- 5.3 数据采集流程总结
- 5.4 本章总结
- 第6章 数据仓库搭建模块
- 6.1 数据仓库理论准备
- 6.1.1 数据建模概述
- 6.1.2 关系模型与范式理论
- 6.1.3 维度模型
- 6.1.4 维度建模理论之事实表
- 6.1.5 维度建模理论之维度表
- 6.1.6 星形模型、雪花模型与星座模型
- 6.2 数据仓库建模实践
- 6.2.1 名词概念
- 6.2.2 为什么要分层
- 6.2.3 数据仓库构建流程
- 6.2.4 数据仓库开发规范
- 6.3 数据仓库搭建环境准备
- 6.3.1 安装Hive
- 6.3.2 Hive on Spark配置
- 6.3.3 YARN容量调度器并发度问题
- 6.3.4 数据仓库开发环境配置
- 6.3.5 模拟数据准备
- 6.3.6 常用函数
- 6.3.7 复杂数据类型
- 6.4 数据仓库搭建——ODS层
- 6.4.1 用户行为数据
- 6.4.2 ODS层用户行为数据导入脚本
- 6.4.3 业务数据
- 6.4.4 ODS层业务数据导入脚本
- 6.5 数据仓库搭建——DIM层
- 6.5.1 章节维度表(全量)
- 6.5.2 课程维度表(全量)
- 6.5.3 视频维度表(全量)
- 6.5.4 试卷维度表(全量)
- 6.5.5 来源维度表(全量)
- 6.5.6 题目维度表(全量)
- 6.5.7 地区维度表(全量)
- 6.5.8 时间维度表(特殊)
- 6.5.9 用户维度表(拉链表)
- 6.5.10 DIM层首日数据装载脚本
- 6.5.11 DIM层每日数据装载脚本
- 6.6 数据仓库搭建——DWD层
- 6.6.1 交易域加购事务事实表
- 6.6.2 交易域加购周期快照事实表
- 6.6.3 交易域试听下单累积快照事实表
- 6.6.4 交易域下单事务事实表
- 6.6.5 交易域支付成功事务事实表
- 6.6.6 流量域页面浏览事务事实表
- 6.6.7 流量域启动事务事实表
- 6.6.8 流量域动作事务事实表
- 6.6.9 流量域曝光事务事实表
- 6.6.10 流量域错误事务事实表
- 6.6.11 互动域收藏事务事实表
- 6.6.12 互动域章节评价事务事实表
- 6.6.13 互动域课程评价事务事实表
- 6.6.14 考试域答卷事务事实表
- 6.6.15 考试域答题事务事实表
- 6.6.16 学习域播放周期快照事实表
- 6.6.17 学习域播放事务事实表
- 6.6.18 用户域用户注册事务事实表
- 6.6.19 用户域用户登录事务事实表
- 6.6.20 DWD层首日数据装载脚本
- 6.6.21 DWD层每日数据装载脚本
- 6.7 数据仓库搭建——DWS层
- 6.7.1 最近1日汇总表
- 6.7.2 最近n日汇总表
- 6.7.3 历史至今汇总表
- 6.8 数据仓库搭建——ADS层
- 6.8.1 流量主题指标
- 6.8.2 用户主题指标
- 6.8.3 课程主题指标
- 6.8.4 交易主题指标
- 6.8.5 考试主题指标
- 6.8.6 播放主题指标
- 6.8.7 完课主题指标
- 6.8.8 ADS层数据导入脚本
- 6.9 数据模型评价及优化
- 6.10 本章总结
- 第7章 DolphinScheduler全流程调度
- 7.1 DolphinScheduler概述与安装
- 7.1.1 DolphinScheduler概述
- 7.1.2 DolphinScheduler安装部署
- 7.2 报表数据导出
- 7.2.1 创建MySQL数据库和表
- 7.2.2 DataX数据导出
- 7.3 全调度流程
- 7.3.1 数据准备
- 7.3.2 全流程调度配置
- 7.4 邮件报警
- 7.4.1 注册邮箱
- 7.4.2 配置邮件报警
- 7.5 本章总结
- 第8章 数据可视化模块
- 8.1 Superset部署
- 8.1.1 环境准备
- 8.1.2 Superset安装
- 8.2 Superset使用
- 8.2.1 对接MySQL数据源
- 8.2.2 制作仪表盘
- 8.3 Superset实战
- 8.3.1 制作饼状图
- 8.3.2 制作折线图
- 8.3.3 制作桑基图
- 8.3.4 合成仪表盘页面
- 8.4 ECharts可视化
- 8.5 本章总结
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。