计算机
类型
7.8
豆瓣评分
可以朗读
语音朗读
452千字
字数
2017-01-01
发行日期
展开全部
主编推荐语
数据仓库、Hadoop生态圈全方位解析
内容简介
本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用Hive进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。
目录
- 封面页
- 书名页
- 版权页
- 作者简介
- 内容简介
- 前言
- 目录
- 第1章 ◄数据仓库简介►
- 1.1 什么是数据仓库
- 1.1.1 数据仓库的定义
- 1.1.2 建立数据仓库的原因
- 1.2 操作型系统与分析型系统
- 1.2.1 操作型系统
- 1.2.2 分析型系统
- 1.2.3 操作型系统和分析型系统对比
- 1.3 数据仓库架构
- 1.3.1 基本架构
- 1.3.2 主要数据仓库架构
- 1.3.3 操作数据存储
- 1.4 抽取-转换-装载
- 1.4.1 数据抽取
- 1.4.2 数据转换
- 1.4.3 数据装载
- 1.4.4 开发ETL系统的方法
- 1.4.5 常见ETL工具
- 1.5 数据仓库需求
- 1.5.1 基本需求
- 1.5.2 数据需求
- 1.6 小结
- 第2章 ◄数据仓库设计基础►
- 2.1 关系数据模型
- 2.1.1 关系数据模型中的结构
- 2.1.2 关系完整性
- 2.1.3 规范化
- 2.1.4 关系数据模型与数据仓库
- 2.2 维度数据模型
- 2.2.1 维度数据模型建模过程
- 2.2.2 维度规范化
- 2.2.3 维度数据模型的特点
- 2.2.4 星型模式
- 2.2.5 雪花模式
- 2.3 Data Vault模型
- 2.3.1 Data Vault模型简介
- 2.3.2 Data Vault模型的组成部分
- 2.3.3 Data Vault模型的特点
- 2.3.4 Data Vault模型的构建
- 2.3.5 Data Vault模型实例
- 2.4 数据集市
- 2.4.1 数据集市的概念
- 2.4.2 数据集市与数据仓库的区别
- 2.4.3 数据集市设计
- 2.5 数据仓库实施步骤
- 2.6 小结
- 第3章 ◄Hadoop生态圈与数据仓库►
- 3.1 大数据定义
- 3.2 Hadoop简介
- 3.2.1 Hadoop的构成
- 3.2.2 Hadoop的主要特点
- 3.2.3 Hadoop架构
- 3.3 Hadoop基本组件
- 3.3.1 HDFS
- 3.3.2 MapReduce
- 3.3.3 YARN
- 3.4 Hadoop生态圈的其他组件
- 3.5 Hadoop与数据仓库
- 3.5.1 关系数据库的可扩展性瓶颈
- 3.5.2 CAP理论
- 3.5.3 Hadoop数据仓库工具
- 3.6 小结
- 第4章 ◄安装Hadoop►
- 4.1 Hadoop主要发行版本
- 4.1.1 Cloudera Distribution for Hadoop (CDH)
- 4.1.2 Hortonworks Data Platform (HDP)
- 4.1.3 MapR Hadoop
- 4.2 安装Apache Hadoop
- 4.2.1 安装环境
- 4.2.2 安装前准备
- 4.2.3 安装配置Hadoop
- 4.2.4 安装后配置
- 4.2.5 初始化及运行
- 4.3 配置HDFS Federation
- 4.4 离线安装CDH及其所需的服务
- 4.4.1 CDH安装概述
- 4.4.2 安装环境
- 4.4.3 安装配置
- 4.4.4 Cloudera Manager许可证管理
- 4.5 小结
- 第5章 ◄Kettle与Hadoop►
- 5.1 Kettle概述
- 5.2 Kettle连接Hadoop
- 5.2.1 连接HDFS
- 5.2.2 连接Hive
- 5.3 导出导入Hadoop集群数据
- 5.3.1 把数据从HDFS抽取到RDBMS
- 5.3.2 向Hive表导入数据
- 5.4 执行Hive的HiveQL语句
- 5.5 MapReduce转换示例
- 5.6 Kettle提交Spark作业
- 5.6.1 安装Spark
- 5.6.2 配置Kettle向Spark集群提交作业
- 5.7 小结
- 第6章 ◄建立数据仓库示例模型►
- 6.1 业务场景
- 6.2 Hive相关配置
- 6.2.1 选择文件格式
- 6.2.2 支持行级更新
- 6.2.3 Hive事务支持的限制
- 6.3 Hive表分类
- 6.4 向Hive表装载数据
- 6.5 建立数据库表
- 6.6 装载日期维度数据
- 6.7 小结
- 第7章 ◄数据抽取►
- 7.1 逻辑数据映射
- 7.2 数据抽取方式
- 7.3 导出成文本文件
- 7.4 分布式查询
- 7.5 使用Sqoop抽取数据
- 7.5.1 Sqoop简介
- 7.5.2 CDH 5.7.0中的Sqoop
- 7.5.3 使用Sqoop抽取数据
- 7.5.4 Sqoop优化
- 7.6 小结
- 第8章 ◄数据转换与装载►
- 8.1 数据清洗
- 8.2 Hive简介
- 8.2.1 Hive的体系结构
- 8.2.2 Hive的工作流程
- 8.2.3 Hive服务器
- 8.2.4 Hive客户端
- 8.3 初始装载
- 8.4 定期装载
- 8.5 Hive优化
- 8.6 小结
- 第9章 ◄定期自动执行ETL作业►
- 9.1 crontab
- 9.2 Oozie简介
- 9.2.1 Oozie的体系结构
- 9.2.2 CDH 5.7.0中的Oozie
- 9.3 建立定期装载工作流
- 9.4 建立协调器作业定期自动执行工作流
- 9.5 Oozie优化
- 9.6 小结
- 第10章 ◄维度表技术►
- 10.1 增加列
- 10.2 维度子集
- 10.3 角色扮演维度
- 10.4 层次维度
- 10.4.1 固定深度的层次
- 10.4.2 递归
- 10.4.3 多路径层次
- 10.4.4 参差不齐的层次
- 10.5 退化维度
- 10.6 杂项维度
- 10.7 维度合并
- 10.8 分段维度
- 10.9 小结
- 第11章 ◄事实表技术►
- 11.1 事实表概述
- 11.2 周期快照
- 11.3 累积快照
- 11.4 无事实的事实表
- 11.5 迟到的事实
- 11.6 累积度量
- 11.7 小结
- 第12章 ◄联机分析处理►
- 12.1 联机分析处理简介
- 12.1.1 概念
- 12.1.2 分类
- 12.1.3 性能
- 12.2 Impala简介
- 12.3 Hive、SparkSQL、Impala比较
- 12.3.1 Spark SQL简介
- 12.3.2 Hive、Spark SQL、Impala比较
- 12.3.3 Hive、Spark SQL、Impala性能对比
- 12.4 联机分析处理实例
- 12.5 Apache Kylin与OLAP
- 12.5.1 Apache Kylin架构
- 12.5.2 Apache Kylin安装
- 12.6 小结
- 第13章 ◄数据可视化►
- 13.1 数据可视化简介
- 13.2 Hue简介
- 13.2.1 Hue功能快速预览
- 13.2.2 配置元数据存储
- 13.3 Zeppelin简介
- 13.3.1 Zeppelin架构
- 13.3.2 Zeppelin安装配置
- 13.3.3 在Zeppelin中添加MySQL翻译器
- 13.4 Hue、Zeppelin比较
- 13.5 数据可视化实例
- 13.6 小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。