计算机
类型
可以朗读
语音朗读
362千字
字数
2022-08-01
发行日期
展开全部
主编推荐语
本书详细讲解了Greenplum数据仓库构建与数据分析技术。
内容简介
Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。
本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。
本书适合Greenplum初学者、大数据分析系统设计与开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。
目录
- 版权信息
- 内容简介
- 推荐序
- 前言
- 本书内容
- 读者对象
- 源码下载
- 致谢
- 第1章 数据仓库简介
- 1.1 什么是数据仓库
- 1.1.1 数据仓库的定义
- 1.1.2 建立数据仓库的原因
- 1.2 操作型系统与分析型系统
- 1.2.1 操作型系统
- 1.2.2 分析型系统
- 1.2.3 操作型系统和分析型系统的对比
- 1.3 抽取—转换—装载
- 1.3.1 数据抽取
- 1.3.2 数据转换
- 1.3.3 数据装载
- 1.3.4 开发ETL系统的方法
- 1.4 数据仓库架构
- 1.4.1 基本架构
- 1.4.2 主要数据仓库架构
- 1.4.3 操作型数据存储
- 1.5 实时数据仓库
- 1.5.1 流式处理
- 1.5.2 实时计算
- 1.5.3 实时数据仓库解决方案
- 1.6 小结
- 第2章 数据仓库设计基础
- 2.1 关系数据模型
- 2.1.1 关系数据模型中的结构
- 2.1.2 关系完整性
- 2.1.3 关系数据库语言
- 2.1.4 规范化
- 2.1.5 关系数据模型与数据仓库
- 2.2 维度数据模型
- 2.2.1 维度数据模型建模过程
- 2.2.2 维度规范化
- 2.2.3 维度数据模型的特点
- 2.2.4 星型模式
- 2.2.5 雪花模式
- 2.3 Data Vault模型
- 2.3.1 Data Vault模型简介
- 2.3.2 Data Vault模型的组成部分
- 2.3.3 Data Vault模型的特点
- 2.3.4 Data Vault模型的构建
- 2.3.5 Data Vault模型实例
- 2.4 数据集市
- 1. 数据集市的概念
- 2. 数据集市与数据仓库的区别
- 3. 数据集市设计
- 2.5 数据仓库实施步骤
- 2.6 小结
- 第3章 Greenplum与数据仓库
- 3.1 Greenplum简介
- 3.1.1 历史与现状
- 3.1.2 MPP——一切皆并行
- 3.2 Greenplum系统架构
- 3.2.1 Greenplum与PostgreSQL
- 3.2.2 Master
- 3.2.3 Segment
- 3.2.4 Interconnect
- 3.3 Greenplum功能特性
- 3.3.1 存储模式
- 3.3.2 事务与并发控制
- 3.3.3 并行查询
- 3.3.4 并行数据装载
- 3.3.5 冗余与故障转移
- 3.3.6 数据库统计
- 3.4 为什么选择Greenplum
- 3.4.1 Greenplum还是SQL-on-Hadoop
- 3.4.2 适合DBA的解决方案
- 3.4.3 Greenplum的局限
- 3.5 小结
- 第4章 Greenplum安装部署
- 4.1 平台需求
- 4.1.1 操作系统
- 4.1.2 硬件和网络
- 4.1.3 文件系统
- 4.2 容量评估
- 4.2.1 可用磁盘空间
- 4.2.2 用户数据容量
- 4.2.3 元数据和日志空间
- 4.2.4 RAID划分最佳实践
- 4.3 操作系统配置
- 4.3.1 安装操作系统
- 4.3.2 禁用SELinux和防火墙
- 4.3.3 操作系统推荐配置
- 4.3.4 时钟同步
- 4.3.5 创建Greenplum管理员账号
- 4.3.6 安装JDK(可选)
- 4.4 安装Greenplum软件
- 4.4.1 安装软件包
- 4.4.2 配置免密SSH
- 4.4.3 确认软件安装
- 4.5 初始化Greenplum数据库系统
- 4.5.1 创建数据存储区
- 4.5.2 验证系统
- 4.5.3 初始化数据库
- 4.5.4 设置Greenplum环境变量
- 4.6 允许客户端连接
- 4.7 修改Greenplum配置参数
- 4.8 后续步骤
- 4.8.1 创建临时表空间
- 4.8.2 创建数据库用户
- 4.9 Greenplum升级
- 4.9.1 升级条件
- 4.9.2 升级步骤
- 4.10 小结
- 第5章 实时数据同步
- 5.1 数据抽取方式
- 5.1.1 基于源数据的CDC
- 5.1.2 基于触发器的CDC
- 5.1.3 基于快照的CDC
- 5.1.4 基于日志的CDC
- 5.2 MySQL数据复制
- 5.2.1 复制的用途
- 5.2.2 二进制日志binlog
- 5.2.3 复制的步骤
- 5.3 使用Kafka
- 5.3.1 Kafka基本概念
- 5.3.2 Kafka消费者与分区
- 5.4 选择主题分区数
- 5.4.1 使用单分区
- 5.4.2 如何选定分区数量
- 5.5 Maxwell + Kafka + Bireme
- 5.5.1 总体架构
- 5.5.2 Maxwell安装配置
- 5.5.3 Bireme安装配置
- 5.5.4 如何保证数据的顺序消费
- 5.5.5 实时CDC
- 5.6 Canal Server + Kafka + Canal ClientAdapter
- 5.6.1 总体架构
- 5.6.2 Canal Server安装配置
- 5.6.3 Canal ClientAdapter安装配置
- 5.6.4 配置HA模式
- 5.6.5 实时CDC
- 5.6.6 消费延迟监控
- 5.7 小结
- 第6章 实时数据装载
- 6.1 建立数据仓库示例模型
- 6.1.1 业务场景
- 6.1.2 建立数据库表
- 6.1.3 生成日期维度数据
- 6.2 初始装载
- 6.2.1 数据源映射
- 6.2.2 确定SCD处理方法
- 6.2.3 实现代理键
- 6.2.4 执行初始装载
- 6.3 实时装载
- 6.3.1 识别数据源与装载类型
- 6.3.2 配置增量数据同步
- 6.3.3 在Greenplum中创建规则
- 6.3.4 启动实时装载
- 6.3.5 测试
- 6.4 动态分区滚动
- 6.5 小结
- 第7章 维度表技术
- 7.1 增加列
- 7.2 维度子集
- 7.3 角色扮演维度
- 7.4 层次维度
- 7.4.1 固定深度的层次
- 7.4.2 多路径的层次
- 7.4.3 参差不齐的层次
- 7.5 退化维度
- 7.6 杂项维度
- 7.7 维度合并
- 7.8 分段维度
- 7.9 小结
- 第8章 事实表技术
- 8.1 事实表概述
- 8.2 周期快照
- 8.3 累积快照
- 8.4 无事实的事实表
- 8.5 迟到的事实
- 8.6 累积度量
- 8.7 小结
- 第9章 Greenplum运维与监控
- 9.1 权限与角色管理
- 9.1.1 Greenplum中的角色与权限
- 9.1.2 管理角色及其成员
- 9.1.3 管理对象权限
- 9.1.4 口令加密
- 9.2 数据导入导出
- 9.2.1 file://协议及其外部表
- 9.2.2 gpfdist及其外部表
- 9.2.3 基于Web的外部表
- 9.2.4 外部表错误处理
- 9.2.5 使用gpload导入数据
- 9.2.6 使用COPY互拷数据
- 9.2.7 导出数据
- 9.2.8 格式化数据文件
- 9.3 性能优化
- 9.3.1 常用优化手段
- 9.3.2 控制溢出文件
- 9.3.3 查询剖析
- 9.4 例行监控
- 9.4.1 检查系统状态
- 9.4.2 检查磁盘空间使用
- 9.4.3 检查数据分布倾斜
- 9.4.4 查看数据库对象的元数据信息
- 9.4.5 查看会话的内存使用信息
- 9.4.6 查看工作文件使用信息
- 9.4.7 查看服务器日志文件
- 9.5 例行维护
- 9.5.1 定期VACUUM
- 9.5.2 定期维护系统目录
- 9.5.3 加强的系统目录维护
- 9.5.4 为查询优化执行VACUUM与ANALYZE
- 9.5.5 自动收集统计信息
- 9.5.6 重建索引
- 9.5.7 管理数据库日志文件
- 9.6 推荐的监控与维护任务
- 9.6.1 数据库实例状态监控
- 9.6.2 硬件和操作系统监控
- 9.6.3 系统目录表监控
- 9.6.4 数据库维护
- 9.6.5 补丁与升级
- 9.7 小结
- 第10章 集成机器学习库MADlib
- 10.1 MADlib的基本概念
- 10.1.1 MADlib是什么
- 10.1.2 MADlib的设计思想
- 10.1.3 MADlib的工作原理
- 10.1.4 MADlib的执行流程
- 10.1.5 MADlib的基础架构
- 10.2 MADlib的功能
- 10.2.1 MADlib支持的模型类型
- 10.2.2 MADlib主要的功能模块
- 10.3 MADlib的安装与卸载
- 10.3.1 确定安装平台
- 10.3.2 安装MADlib
- 10.3.3 卸载MADlib
- 10.4 MADlib示例
- 10.4.1 低秩矩阵分解
- 10.4.2 奇异值分解
- 10.5 模型评估
- 10.5.1 交叉验证
- 10.5.2 MADlib的交叉验证相关函数
- 10.5.3 交叉验证示例
- 10.6 小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。