展开全部

主编推荐语

全面介绍企业级数据仓库的搭建过程。

内容简介

本书按照需求规划、需求实现、可视化的流程进行编排,通过项目开发的主要流程,介绍数据仓库的搭建过程。在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署、需求实现的具体思路,以及各种问题的解决方案等,并在其中穿插了许多与大数据和数据仓库相关的理论知识,包括数据仓库的概念、电商业务概述、数据仓库理论和数据仓库建模等。

全书共14章,其中,第1~3章是项目的前期准备阶段,主要介绍了数据仓库的概念和搭建需求,并初步搭建了本数据仓库项目所需的基本环境;第4~7章是项目的核心部分,详细介绍了数据仓库的建模理论,并完成了数据从采集到分层搭建的全过程,是本书的重点部分;第8~14章是对数据治理各功能模块的实现,针对数据治理的不同功能需求分模块进行实现。

本书适合具有一定编程基础并对大数据感兴趣的读者阅读。通过学习本书,读者可以快速了解数据仓库,全面掌握数据仓库相关技术。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1章 数据仓库概论
  • 1.1 数据仓库的概念与特点
  • 1.2 数据仓库的演进过程
  • 1.3 数据仓库技术
  • 1.4 数据仓库基本架构
  • 1.5 数据库和数据仓库的区别
  • 1.6 学前导读
  • 1.6.1 学习的基础要求
  • 1.6.2 你将学到什么
  • 1.7 本章总结
  • 第2章 项目需求描述
  • 2.1 前期调研
  • 2.2 项目架构分析
  • 2.2.1 电商数据仓库产品描述
  • 2.2.2 系统功能结构
  • 2.2.3 系统流程图
  • 2.3 项目业务概述
  • 2.3.1 采集模块业务描述
  • 2.3.2 数据仓库需求业务描述
  • 2.3.3 数据可视化业务描述
  • 2.3.4 即席查询业务描述
  • 2.3.5 数据治理业务描述
  • 2.4 系统运行环境
  • 2.4.1 硬件环境
  • 2.4.2 软件环境
  • 2.5 本章总结
  • 第3章 项目部署的环境准备
  • 3.1 Linux环境准备
  • 3.1.1 VMware安装
  • 3.1.2 CentOS安装
  • 3.1.3 远程终端安装
  • 3.2 Linux环境配置
  • 3.2.1 网络配置
  • 3.2.2 网络IP地址配置
  • 3.2.3 主机名配置
  • 3.2.4 防火墙配置
  • 3.2.5 一般用户设置
  • 3.3 Hadoop环境搭建
  • 3.3.1 虚拟机环境准备
  • 3.3.2 JDK安装
  • 3.3.3 Hadoop安装
  • 3.3.4 Hadoop分布式集群部署
  • 3.4 本章总结
  • 第4章 用户行为数据采集模块
  • 4.1 日志生成
  • 4.1.1 数据埋点
  • 4.1.2 用户行为日志内容
  • 4.1.3 用户行为日志格式
  • 4.1.4 数据模拟
  • 4.2 消息队列Kafka
  • 4.2.1 ZooKeeper安装
  • 4.2.2 ZooKeeper集群启动、停止脚本
  • 4.2.3 Kafka安装
  • 4.2.4 Kafka Eagle安装
  • 4.2.5 Kafka集群启动、停止脚本
  • 4.2.6 Kafka topic相关操作
  • 4.3 采集日志的Flume
  • 4.3.1 Flume组件
  • 4.3.2 Flume安装
  • 4.3.3 采集日志的Flume配置
  • 4.3.4 Flume的拦截器
  • 4.3.5 采集日志的Flume启动、停止脚本
  • 4.4 消费日志的Flume
  • 4.4.1 消费日志的Flume配置
  • 4.4.2 时间戳拦截器
  • 4.4.3 消费日志的Flume启动、停止脚本
  • 4.4.4 数据通道测试
  • 4.5 采集通道启动、停止脚本
  • 4.6 本章总结
  • 第5章 业务数据采集模块
  • 5.1 电商业务概述
  • 5.1.1 电商业务流程
  • 5.1.2 电商常识
  • 5.1.3 电商业务表结构
  • 5.1.4 数据同步策略
  • 5.1.5 数据同步工具选择
  • 5.2 业务数据采集
  • 5.2.1 MySQL安装
  • 5.2.2 业务数据生成
  • 5.2.3 业务数据模型梳理
  • 5.2.4 DataX安装
  • 5.2.5 Maxwell安装
  • 5.2.6 全量同步
  • 5.2.7 增量同步
  • 5.3 本章总结
  • 第6章 数据仓库搭建模块
  • 6.1 数据仓库理论准备
  • 6.1.1 数据建模概述
  • 6.1.2 关系模型与范式理论
  • 6.1.3 维度模型
  • 6.1.4 维度建模理论之事实表
  • 6.1.5 维度建模理论之维度表
  • 6.1.6 雪花模型、星形模型与星座模型
  • 6.2 数据仓库建模实践
  • 6.2.1 名词概念
  • 6.2.2 为什么要分层
  • 6.2.3 数据仓库搭建流程
  • 6.2.4 数据仓库开发规范
  • 6.3 数据仓库搭建环境准备
  • 6.3.1 Hive安装
  • 6.3.2 Hive on Spark配置
  • 6.3.3 YARN容量调度器并发度问题
  • 6.3.4 数据仓库开发环境配置
  • 6.3.5 模拟数据准备
  • 6.3.6 常用函数
  • 6.3.7 复杂数据类型
  • 6.4 数据仓库搭建——ODS层
  • 6.4.1 用户行为数据
  • 6.4.2 ODS层用户行为数据导入脚本
  • 6.4.3 业务数据
  • 6.4.4 ODS层业务数据导入脚本
  • 6.5 数据仓库搭建——DIM层
  • 6.5.1 商品维度表(全量)
  • 6.5.2 优惠券维度表(全量)
  • 6.5.3 活动维度表(全量)
  • 6.5.4 地区维度表(全量)
  • 6.5.5 时间维度表(特殊)
  • 6.5.6 用户维度表(拉链表)
  • 6.5.7 DIM层首日数据装载脚本
  • 6.5.8 DIM层每日数据装载脚本
  • 6.6 数据仓库搭建——DWD层
  • 6.6.1 交易域加购物车事务事实表
  • 6.6.2 交易域下单事务事实表
  • 6.6.3 交易域取消订单事务事实表
  • 6.6.4 交易域支付成功事务事实表
  • 6.6.5 交易域退单事务事实表
  • 6.6.6 交易域退款成功事务事实表
  • 6.6.7 交易域购物车周期快照事实表
  • 6.6.8 工具域优惠券领取事务事实表
  • 6.6.9 工具域优惠券使用(下单)事务事实表
  • 6.6.10 工具域优惠券使用(支付)事务事实表
  • 6.6.11 互动域收藏事务事实表
  • 6.6.12 互动域评价事务事实表
  • 6.6.13 流量域页面浏览事务事实表
  • 6.6.14 流量域启动事务事实表
  • 6.6.15 流量域动作事务事实表
  • 6.6.16 流量域曝光事务事实表
  • 6.6.17 流量域错误事务事实表
  • 6.6.18 用户域注册事务事实表
  • 6.6.19 用户域登录事务事实表
  • 6.6.20 DWD层首日业务数据装载脚本
  • 6.6.21 DWD层每日业务数据装载脚本
  • 6.7 数据仓库搭建——DWS层
  • 6.7.1 最近1日汇总表
  • 6.7.2 最近n日汇总表
  • 6.7.3 历史至今汇总表
  • 6.8 数据仓库搭建——ADS层
  • 6.8.1 流量主题指标
  • 6.8.2 用户主题指标
  • 6.8.3 商品主题指标
  • 6.8.4 交易主题指标
  • 6.8.5 优惠券主题指标
  • 6.8.6 活动主题指标
  • 6.8.7 ADS层数据导入脚本
  • 6.9 数据模型评估及优化
  • 6.10 本章总结
  • 第7章 DolphinScheduler全流程调度
  • 7.1 DolphinScheduler概述与安装部署
  • 7.1.1 DolphinScheduler概述
  • 7.1.2 DolphinScheduler安装部署
  • 7.2 创建MySQL数据库和表
  • 7.3 DataX数据导出
  • 7.4 全流程调度
  • 7.4.1 数据准备
  • 7.4.2 全流程调度配置
  • 7.5 电子邮件报警
  • 7.5.1 注册邮箱
  • 7.5.2 配置电子邮件报警
  • 7.6 本章总结
  • 第8章 数据可视化模块
  • 8.1 Superset部署
  • 8.1.1 环境准备
  • 8.1.2 Superset安装
  • 8.2 Superset使用
  • 8.2.1 对接MySQL数据源
  • 8.2.2 制作仪表盘
  • 8.3 Superset实战
  • 8.3.1 制作柱状图
  • 8.3.2 制作旭日图
  • 8.3.3 制作桑基图
  • 8.3.4 合成仪表盘页面
  • 8.4 ECharts可视化
  • 8.5 本章总结
  • 第9章 即席查询模块
  • 9.1 Presto
  • 9.1.1 Presto简介
  • 9.1.2 Presto安装
  • 9.1.3 Presto优化之数据存储
  • 9.1.4 Presto优化之SQL查询语句
  • 9.1.5 Presto注意事项
  • 9.2 Kylin
  • 9.2.1 Kylin简介
  • 9.2.2 HBase安装
  • 9.2.3 Kylin安装
  • 9.2.4 Kylin使用
  • 9.2.5 Kylin Cube构建原理
  • 9.2.6 Kylin Cube存储原理
  • 9.2.7 Kylin Cube构建优化
  • 9.2.8 Kylin BI工具集成
  • 9.3 即席查询框架对比
  • 9.4 本章总结
  • 第10章 集群监控模块
  • 10.1 Zabbix入门
  • 10.2 Zabbix部署
  • 10.2.1 集群规划
  • 10.2.2 准备工作
  • 10.2.3 配置Zabbix yum源
  • 10.2.4 安装并配置Zabbix
  • 10.2.5 启动、停止Zabbix
  • 10.3 Zabbix使用
  • 10.3.1 术语介绍
  • 10.3.2 Zabbix实战
  • 10.3.3 创建模板
  • 10.4 Grafana
  • 10.4.1 Grafana安装部署
  • 10.4.2 快速入门
  • 10.4.3 集成Zabbix
  • 10.5 本章总结
  • 第11章 安全认证模块
  • 11.1 Kerberos入门
  • 11.1.1 Kerberos概述
  • 11.1.2 Kerberos认证原理
  • 11.2 Kerberos安装
  • 11.2.1 安装Kerberos相关服务
  • 11.2.2 修改配置文件
  • 11.2.3 初始化KDC数据库
  • 11.2.4 修改管理员权限配置文件
  • 11.2.5 启动Kerberos相关服务
  • 11.2.6 创建Kerberos管理员用户
  • 11.3 Kerberos操作
  • 11.3.1 Kerberos数据库操作
  • 11.3.2 Kerberos认证操作
  • 11.4 Hadoop集成Kerberos
  • 11.4.1 创建Hadoop系统用户
  • 11.4.2 为Hadoop各服务创建Kerberos主体(Principal)
  • 11.4.3 修改Hadoop配置文件
  • 11.4.4 配置HDFS使用HTTPS协议
  • 11.4.5 配置YARN使用LinuxContainerExecutor
  • 11.5 在安全认证模式下启动Hadoop集群
  • 11.5.1 修改本地特定路径访问权限
  • 11.5.2 启动HDFS
  • 11.5.3 修改HDFS特定路径访问权限
  • 11.5.4 启动YARN
  • 11.5.5 启动HistoryServer
  • 11.6 在安全认证模式下操作Hadoop集群
  • 11.6.1 用户要求
  • 11.6.2 HDFS操作
  • 11.6.3 MapReduce任务提交
  • 11.7 Hive集成Kerberos
  • 11.7.1 配置要求
  • 11.7.2 配置认证
  • 11.7.3 启动HiveServer2服务
  • 11.8 在安全认证模式下操作Hive
  • 11.8.1 Beeline客户端
  • 11.8.2 DataGrip客户端
  • 11.9 在安全认证模式下执行数据仓库全流程调度
  • 11.9.1 用户准备
  • 11.9.2 修改数据采集通道
  • 11.9.3 修改数据仓库各层脚本
  • 11.9.4 修改数据导出DataX配置文件
  • 11.9.5 修改HDFS特定路径的所有者
  • 11.9.6 全流程数据准备
  • 11.9.7 DolphinScheduler集成Kerberos
  • 11.9.8 全流程调度
  • 11.10 Presto集成Kerberos
  • 11.10.1 用户准备
  • 11.10.2 创建HTTPS协议所需的密钥对
  • 11.10.3 修改Presto Coordinator配置文件
  • 11.10.4 修改Hive Connector配置文件
  • 11.10.5 配置客户端Kerberos主体到用户名之间的映射规则
  • 11.10.6 配置Presto代理用户
  • 11.10.7 重启Presto集群
  • 11.10.8 在安全认证模式下操作Presto
  • 11.11 Kylin集成Kerberos
  • 11.11.1 Kerberos集成HBase
  • 11.11.2 Kerberos集成Kylin
  • 11.12 本章总结
  • 第12章 权限管理模块
  • 12.1 Ranger入门
  • 12.1.1 Ranger概述
  • 12.1.2 Ranger架构原理
  • 12.2 Ranger安装部署
  • 12.2.1 RangerAdmin安装与配置
  • 12.2.2 RangerUsersync安装与配置
  • 12.2.3 Ranger Hive-plugin安装与配置
  • 12.3 使用Ranger对Hive进行权限管理
  • 12.3.1 权限控制初体验
  • 12.3.2 Ranger的权限管理模型
  • 12.4 本章总结
  • 第13章 元数据管理模块
  • 13.1 Atlas入门
  • 13.1.1 元数据管理概述
  • 13.1.2 Atlas概述
  • 13.1.3 Atlas架构原理
  • 13.2 Atlas安装及启动
  • 13.2.1 安装前环境准备
  • 13.2.2 集成外部框架
  • 13.2.3 Atlas Server配置
  • 13.2.4 Kerberos相关配置
  • 13.2.5 Atlas集成Hive
  • 13.2.6 Atlas启动
  • 13.3 Atlas使用
  • 13.3.1 Hive元数据初次全量导入
  • 13.3.2 Hive元数据增量同步
  • 13.3.3 编译Atlas源码包
  • 13.4 本章总结
  • 第14章 数据质量
  • 14.1 数据质量管理概述
  • 14.1.1 数据质量管理定义
  • 14.1.2 数据质量评估
  • 14.2 数据质量监控需求
  • 14.3 开发环境准备
  • 14.3.1 Python环境准备
  • 14.3.2 初始化MySQL环境
  • 14.4 编写及集成检查规则脚本
  • 14.4.1 编写检查规则脚本
  • 14.4.2 集成检查规则脚本
  • 14.5 编写报警脚本
  • 14.6 调度模块
  • 14.6.1 在Worker节点上安装MySQL客户端
  • 14.6.2 配置工作流
  • 14.7 可视化模块
  • 14.8 本章总结
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    5.0

    很惊喜电子书上架《剑指大数据》,实体书第一时间就看过,以电商数据仓库项目实现为例,实现项目的同时讲解大数据技术的使用。理论与实践结合,想要学习大数据技术必读图书。电子书更方便查看搜索。希望电子书上架更多尚硅谷出品的 IT 技术类图书。帮助更多想要学习编程技术的人。

      转发
      评论

    出版方

    电子工业出版社

    电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。