展开全部

主编推荐语

数据仓库、Hadoop生态圈全方位解析

内容简介

本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用Hive进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。

目录

  • 封面页
  • 书名页
  • 版权页
  • 作者简介
  • 内容简介
  • 前言
  • 目录
  • 第1章 ◄数据仓库简介►
  • 1.1 什么是数据仓库
  • 1.1.1 数据仓库的定义
  • 1.1.2 建立数据仓库的原因
  • 1.2 操作型系统与分析型系统
  • 1.2.1 操作型系统
  • 1.2.2 分析型系统
  • 1.2.3 操作型系统和分析型系统对比
  • 1.3 数据仓库架构
  • 1.3.1 基本架构
  • 1.3.2 主要数据仓库架构
  • 1.3.3 操作数据存储
  • 1.4 抽取-转换-装载
  • 1.4.1 数据抽取
  • 1.4.2 数据转换
  • 1.4.3 数据装载
  • 1.4.4 开发ETL系统的方法
  • 1.4.5 常见ETL工具
  • 1.5 数据仓库需求
  • 1.5.1 基本需求
  • 1.5.2 数据需求
  • 1.6 小结
  • 第2章 ◄数据仓库设计基础►
  • 2.1 关系数据模型
  • 2.1.1 关系数据模型中的结构
  • 2.1.2 关系完整性
  • 2.1.3 规范化
  • 2.1.4 关系数据模型与数据仓库
  • 2.2 维度数据模型
  • 2.2.1 维度数据模型建模过程
  • 2.2.2 维度规范化
  • 2.2.3 维度数据模型的特点
  • 2.2.4 星型模式
  • 2.2.5 雪花模式
  • 2.3 Data Vault模型
  • 2.3.1 Data Vault模型简介
  • 2.3.2 Data Vault模型的组成部分
  • 2.3.3 Data Vault模型的特点
  • 2.3.4 Data Vault模型的构建
  • 2.3.5 Data Vault模型实例
  • 2.4 数据集市
  • 2.4.1 数据集市的概念
  • 2.4.2 数据集市与数据仓库的区别
  • 2.4.3 数据集市设计
  • 2.5 数据仓库实施步骤
  • 2.6 小结
  • 第3章 ◄Hadoop生态圈与数据仓库►
  • 3.1 大数据定义
  • 3.2 Hadoop简介
  • 3.2.1 Hadoop的构成
  • 3.2.2 Hadoop的主要特点
  • 3.2.3 Hadoop架构
  • 3.3 Hadoop基本组件
  • 3.3.1 HDFS
  • 3.3.2 MapReduce
  • 3.3.3 YARN
  • 3.4 Hadoop生态圈的其他组件
  • 3.5 Hadoop与数据仓库
  • 3.5.1 关系数据库的可扩展性瓶颈
  • 3.5.2 CAP理论
  • 3.5.3 Hadoop数据仓库工具
  • 3.6 小结
  • 第4章 ◄安装Hadoop►
  • 4.1 Hadoop主要发行版本
  • 4.1.1 Cloudera Distribution for Hadoop (CDH)
  • 4.1.2 Hortonworks Data Platform (HDP)
  • 4.1.3 MapR Hadoop
  • 4.2 安装Apache Hadoop
  • 4.2.1 安装环境
  • 4.2.2 安装前准备
  • 4.2.3 安装配置Hadoop
  • 4.2.4 安装后配置
  • 4.2.5 初始化及运行
  • 4.3 配置HDFS Federation
  • 4.4 离线安装CDH及其所需的服务
  • 4.4.1 CDH安装概述
  • 4.4.2 安装环境
  • 4.4.3 安装配置
  • 4.4.4 Cloudera Manager许可证管理
  • 4.5 小结
  • 第5章 ◄Kettle与Hadoop►
  • 5.1 Kettle概述
  • 5.2 Kettle连接Hadoop
  • 5.2.1 连接HDFS
  • 5.2.2 连接Hive
  • 5.3 导出导入Hadoop集群数据
  • 5.3.1 把数据从HDFS抽取到RDBMS
  • 5.3.2 向Hive表导入数据
  • 5.4 执行Hive的HiveQL语句
  • 5.5 MapReduce转换示例
  • 5.6 Kettle提交Spark作业
  • 5.6.1 安装Spark
  • 5.6.2 配置Kettle向Spark集群提交作业
  • 5.7 小结
  • 第6章 ◄建立数据仓库示例模型►
  • 6.1 业务场景
  • 6.2 Hive相关配置
  • 6.2.1 选择文件格式
  • 6.2.2 支持行级更新
  • 6.2.3 Hive事务支持的限制
  • 6.3 Hive表分类
  • 6.4 向Hive表装载数据
  • 6.5 建立数据库表
  • 6.6 装载日期维度数据
  • 6.7 小结
  • 第7章 ◄数据抽取►
  • 7.1 逻辑数据映射
  • 7.2 数据抽取方式
  • 7.3 导出成文本文件
  • 7.4 分布式查询
  • 7.5 使用Sqoop抽取数据
  • 7.5.1 Sqoop简介
  • 7.5.2 CDH 5.7.0中的Sqoop
  • 7.5.3 使用Sqoop抽取数据
  • 7.5.4 Sqoop优化
  • 7.6 小结
  • 第8章 ◄数据转换与装载►
  • 8.1 数据清洗
  • 8.2 Hive简介
  • 8.2.1 Hive的体系结构
  • 8.2.2 Hive的工作流程
  • 8.2.3 Hive服务器
  • 8.2.4 Hive客户端
  • 8.3 初始装载
  • 8.4 定期装载
  • 8.5 Hive优化
  • 8.6 小结
  • 第9章 ◄定期自动执行ETL作业►
  • 9.1 crontab
  • 9.2 Oozie简介
  • 9.2.1 Oozie的体系结构
  • 9.2.2 CDH 5.7.0中的Oozie
  • 9.3 建立定期装载工作流
  • 9.4 建立协调器作业定期自动执行工作流
  • 9.5 Oozie优化
  • 9.6 小结
  • 第10章 ◄维度表技术►
  • 10.1 增加列
  • 10.2 维度子集
  • 10.3 角色扮演维度
  • 10.4 层次维度
  • 10.4.1 固定深度的层次
  • 10.4.2 递归
  • 10.4.3 多路径层次
  • 10.4.4 参差不齐的层次
  • 10.5 退化维度
  • 10.6 杂项维度
  • 10.7 维度合并
  • 10.8 分段维度
  • 10.9 小结
  • 第11章 ◄事实表技术►
  • 11.1 事实表概述
  • 11.2 周期快照
  • 11.3 累积快照
  • 11.4 无事实的事实表
  • 11.5 迟到的事实
  • 11.6 累积度量
  • 11.7 小结
  • 第12章 ◄联机分析处理►
  • 12.1 联机分析处理简介
  • 12.1.1 概念
  • 12.1.2 分类
  • 12.1.3 性能
  • 12.2 Impala简介
  • 12.3 Hive、SparkSQL、Impala比较
  • 12.3.1 Spark SQL简介
  • 12.3.2 Hive、Spark SQL、Impala比较
  • 12.3.3 Hive、Spark SQL、Impala性能对比
  • 12.4 联机分析处理实例
  • 12.5 Apache Kylin与OLAP
  • 12.5.1 Apache Kylin架构
  • 12.5.2 Apache Kylin安装
  • 12.6 小结
  • 第13章 ◄数据可视化►
  • 13.1 数据可视化简介
  • 13.2 Hue简介
  • 13.2.1 Hue功能快速预览
  • 13.2.2 配置元数据存储
  • 13.3 Zeppelin简介
  • 13.3.1 Zeppelin架构
  • 13.3.2 Zeppelin安装配置
  • 13.3.3 在Zeppelin中添加MySQL翻译器
  • 13.4 Hue、Zeppelin比较
  • 13.5 数据可视化实例
  • 13.6 小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。