展开全部

主编推荐语

本书详细讲解了Greenplum数据仓库构建与数据分析技术。

内容简介

Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。

本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。

本书适合Greenplum初学者、大数据分析系统设计与开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。

目录

  • 版权信息
  • 内容简介
  • 推荐序
  • 前言
  • 本书内容
  • 读者对象
  • 源码下载
  • 致谢
  • 第1章 数据仓库简介
  • 1.1 什么是数据仓库
  • 1.1.1 数据仓库的定义
  • 1.1.2 建立数据仓库的原因
  • 1.2 操作型系统与分析型系统
  • 1.2.1 操作型系统
  • 1.2.2 分析型系统
  • 1.2.3 操作型系统和分析型系统的对比
  • 1.3 抽取—转换—装载
  • 1.3.1 数据抽取
  • 1.3.2 数据转换
  • 1.3.3 数据装载
  • 1.3.4 开发ETL系统的方法
  • 1.4 数据仓库架构
  • 1.4.1 基本架构
  • 1.4.2 主要数据仓库架构
  • 1.4.3 操作型数据存储
  • 1.5 实时数据仓库
  • 1.5.1 流式处理
  • 1.5.2 实时计算
  • 1.5.3 实时数据仓库解决方案
  • 1.6 小结
  • 第2章 数据仓库设计基础
  • 2.1 关系数据模型
  • 2.1.1 关系数据模型中的结构
  • 2.1.2 关系完整性
  • 2.1.3 关系数据库语言
  • 2.1.4 规范化
  • 2.1.5 关系数据模型与数据仓库
  • 2.2 维度数据模型
  • 2.2.1 维度数据模型建模过程
  • 2.2.2 维度规范化
  • 2.2.3 维度数据模型的特点
  • 2.2.4 星型模式
  • 2.2.5 雪花模式
  • 2.3 Data Vault模型
  • 2.3.1 Data Vault模型简介
  • 2.3.2 Data Vault模型的组成部分
  • 2.3.3 Data Vault模型的特点
  • 2.3.4 Data Vault模型的构建
  • 2.3.5 Data Vault模型实例
  • 2.4 数据集市
  • 1. 数据集市的概念
  • 2. 数据集市与数据仓库的区别
  • 3. 数据集市设计
  • 2.5 数据仓库实施步骤
  • 2.6 小结
  • 第3章 Greenplum与数据仓库
  • 3.1 Greenplum简介
  • 3.1.1 历史与现状
  • 3.1.2 MPP——一切皆并行
  • 3.2 Greenplum系统架构
  • 3.2.1 Greenplum与PostgreSQL
  • 3.2.2 Master
  • 3.2.3 Segment
  • 3.2.4 Interconnect
  • 3.3 Greenplum功能特性
  • 3.3.1 存储模式
  • 3.3.2 事务与并发控制
  • 3.3.3 并行查询
  • 3.3.4 并行数据装载
  • 3.3.5 冗余与故障转移
  • 3.3.6 数据库统计
  • 3.4 为什么选择Greenplum
  • 3.4.1 Greenplum还是SQL-on-Hadoop
  • 3.4.2 适合DBA的解决方案
  • 3.4.3 Greenplum的局限
  • 3.5 小结
  • 第4章 Greenplum安装部署
  • 4.1 平台需求
  • 4.1.1 操作系统
  • 4.1.2 硬件和网络
  • 4.1.3 文件系统
  • 4.2 容量评估
  • 4.2.1 可用磁盘空间
  • 4.2.2 用户数据容量
  • 4.2.3 元数据和日志空间
  • 4.2.4 RAID划分最佳实践
  • 4.3 操作系统配置
  • 4.3.1 安装操作系统
  • 4.3.2 禁用SELinux和防火墙
  • 4.3.3 操作系统推荐配置
  • 4.3.4 时钟同步
  • 4.3.5 创建Greenplum管理员账号
  • 4.3.6 安装JDK(可选)
  • 4.4 安装Greenplum软件
  • 4.4.1 安装软件包
  • 4.4.2 配置免密SSH
  • 4.4.3 确认软件安装
  • 4.5 初始化Greenplum数据库系统
  • 4.5.1 创建数据存储区
  • 4.5.2 验证系统
  • 4.5.3 初始化数据库
  • 4.5.4 设置Greenplum环境变量
  • 4.6 允许客户端连接
  • 4.7 修改Greenplum配置参数
  • 4.8 后续步骤
  • 4.8.1 创建临时表空间
  • 4.8.2 创建数据库用户
  • 4.9 Greenplum升级
  • 4.9.1 升级条件
  • 4.9.2 升级步骤
  • 4.10 小结
  • 第5章 实时数据同步
  • 5.1 数据抽取方式
  • 5.1.1 基于源数据的CDC
  • 5.1.2 基于触发器的CDC
  • 5.1.3 基于快照的CDC
  • 5.1.4 基于日志的CDC
  • 5.2 MySQL数据复制
  • 5.2.1 复制的用途
  • 5.2.2 二进制日志binlog
  • 5.2.3 复制的步骤
  • 5.3 使用Kafka
  • 5.3.1 Kafka基本概念
  • 5.3.2 Kafka消费者与分区
  • 5.4 选择主题分区数
  • 5.4.1 使用单分区
  • 5.4.2 如何选定分区数量
  • 5.5 Maxwell + Kafka + Bireme
  • 5.5.1 总体架构
  • 5.5.2 Maxwell安装配置
  • 5.5.3 Bireme安装配置
  • 5.5.4 如何保证数据的顺序消费
  • 5.5.5 实时CDC
  • 5.6 Canal Server + Kafka + Canal ClientAdapter
  • 5.6.1 总体架构
  • 5.6.2 Canal Server安装配置
  • 5.6.3 Canal ClientAdapter安装配置
  • 5.6.4 配置HA模式
  • 5.6.5 实时CDC
  • 5.6.6 消费延迟监控
  • 5.7 小结
  • 第6章 实时数据装载
  • 6.1 建立数据仓库示例模型
  • 6.1.1 业务场景
  • 6.1.2 建立数据库表
  • 6.1.3 生成日期维度数据
  • 6.2 初始装载
  • 6.2.1 数据源映射
  • 6.2.2 确定SCD处理方法
  • 6.2.3 实现代理键
  • 6.2.4 执行初始装载
  • 6.3 实时装载
  • 6.3.1 识别数据源与装载类型
  • 6.3.2 配置增量数据同步
  • 6.3.3 在Greenplum中创建规则
  • 6.3.4 启动实时装载
  • 6.3.5 测试
  • 6.4 动态分区滚动
  • 6.5 小结
  • 第7章 维度表技术
  • 7.1 增加列
  • 7.2 维度子集
  • 7.3 角色扮演维度
  • 7.4 层次维度
  • 7.4.1 固定深度的层次
  • 7.4.2 多路径的层次
  • 7.4.3 参差不齐的层次
  • 7.5 退化维度
  • 7.6 杂项维度
  • 7.7 维度合并
  • 7.8 分段维度
  • 7.9 小结
  • 第8章 事实表技术
  • 8.1 事实表概述
  • 8.2 周期快照
  • 8.3 累积快照
  • 8.4 无事实的事实表
  • 8.5 迟到的事实
  • 8.6 累积度量
  • 8.7 小结
  • 第9章 Greenplum运维与监控
  • 9.1 权限与角色管理
  • 9.1.1 Greenplum中的角色与权限
  • 9.1.2 管理角色及其成员
  • 9.1.3 管理对象权限
  • 9.1.4 口令加密
  • 9.2 数据导入导出
  • 9.2.1 file://协议及其外部表
  • 9.2.2 gpfdist及其外部表
  • 9.2.3 基于Web的外部表
  • 9.2.4 外部表错误处理
  • 9.2.5 使用gpload导入数据
  • 9.2.6 使用COPY互拷数据
  • 9.2.7 导出数据
  • 9.2.8 格式化数据文件
  • 9.3 性能优化
  • 9.3.1 常用优化手段
  • 9.3.2 控制溢出文件
  • 9.3.3 查询剖析
  • 9.4 例行监控
  • 9.4.1 检查系统状态
  • 9.4.2 检查磁盘空间使用
  • 9.4.3 检查数据分布倾斜
  • 9.4.4 查看数据库对象的元数据信息
  • 9.4.5 查看会话的内存使用信息
  • 9.4.6 查看工作文件使用信息
  • 9.4.7 查看服务器日志文件
  • 9.5 例行维护
  • 9.5.1 定期VACUUM
  • 9.5.2 定期维护系统目录
  • 9.5.3 加强的系统目录维护
  • 9.5.4 为查询优化执行VACUUM与ANALYZE
  • 9.5.5 自动收集统计信息
  • 9.5.6 重建索引
  • 9.5.7 管理数据库日志文件
  • 9.6 推荐的监控与维护任务
  • 9.6.1 数据库实例状态监控
  • 9.6.2 硬件和操作系统监控
  • 9.6.3 系统目录表监控
  • 9.6.4 数据库维护
  • 9.6.5 补丁与升级
  • 9.7 小结
  • 第10章 集成机器学习库MADlib
  • 10.1 MADlib的基本概念
  • 10.1.1 MADlib是什么
  • 10.1.2 MADlib的设计思想
  • 10.1.3 MADlib的工作原理
  • 10.1.4 MADlib的执行流程
  • 10.1.5 MADlib的基础架构
  • 10.2 MADlib的功能
  • 10.2.1 MADlib支持的模型类型
  • 10.2.2 MADlib主要的功能模块
  • 10.3 MADlib的安装与卸载
  • 10.3.1 确定安装平台
  • 10.3.2 安装MADlib
  • 10.3.3 卸载MADlib
  • 10.4 MADlib示例
  • 10.4.1 低秩矩阵分解
  • 10.4.2 奇异值分解
  • 10.5 模型评估
  • 10.5.1 交叉验证
  • 10.5.2 MADlib的交叉验证相关函数
  • 10.5.3 交叉验证示例
  • 10.6 小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。