互联网
类型
可以朗读
语音朗读
140千字
字数
2024-08-01
发行日期
展开全部
主编推荐语
深入探讨数据资产管理的核心技术与应用。
内容简介
本书为读者提供一套可以落地的数据资产管理框架,并详解两个基于该框架进行数据资产管理的应用案例,使读者能更好地了解数据资产管理底层所涉及的众多核心技术,让数据可以发挥出更大的价值。
全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。
第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。
第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。
目录
- 版权信息
- 内容简介
- 推荐序1
- 推荐序2
- 推荐序3
- 作者简介
- 前言
- 第1章 认识数据资产
- 1.1 数据资产的基本介绍
- 1.2 数据资产的分类
- 1.3 数据资产的价值评估
- 1.4 数据资产的质量
- 1.5 数据资产的存储
- 1.6 数据资产管理
- 1.7 数据资产管理的信息化建设
- 1.8 数据资产与人工智能
- 第2章 元数据的采集与存储
- 2.1 Hive中的元数据采集
- 2.1.1 基于Hive Meta DB的元数据采集
- 2.1.2 基于Hive Catalog的元数据采集
- 2.1.3 基于Spark Catalog的元数据采集
- 2.2 Delta Lake中的元数据采集
- 2.2.1 基于Delta Lake自身设计来采集元数据
- 2.2.2 基于Spark Catalog来采集元数据
- 2.3 MySQL中的元数据采集
- 2.4 Apache Hudi中的元数据采集
- 2.4.1 基于Spark Catalog采集元数据
- 2.4.2 Hudi Timeline Meta Server
- 2.4.3 基于Hive Meta DB采集元数据
- 2.5 Apache Iceberg中的元数据采集
- 2.5.1 Iceberg的元数据设计
- 2.5.2 Iceberg元数据的采集
- 2.6 元数据的存储模型设计
- 2.6.1 如何对元数据进行整合
- 2.6.2 元数据的存储模型设计
- 第3章 数据血缘
- 3.1 获取数据血缘的技术实现
- 3.1.1 如何从Hive中获取数据血缘
- 3.1.2 从Spark执行计划中获取数据血缘
- 3.1.3 从Spark SQL语句中获取数据血缘
- 3.1.4 从Flink中获取数据血缘
- 3.1.5 从数据任务的编排系统中获取数据血缘
- 3.2 数据血缘的存储模型与展示设计
- 第4章 数据质量的技术实现
- 4.1 质量数据采集的技术实现
- 4.1.1 定义数据采集的规则
- 4.1.2 定时Job的技术选型
- 4.2 如何处理采集到的质量数据
- 4.3 质量数据的存储模型设计
- 4.4 常见的开源数据质量管理平台
- 4.4.1 Apache Griffin
- 4.4.2 Qualitis
- 第5章 数据监控与告警
- 5.1 数据监控
- 5.1.1 数据监控的种类
- 5.1.2 监控数据的特点与存储方式
- 5.2 常见的数据监控目标
- 5.2.1 数据链路监控
- 5.2.2 数据任务监控
- 5.2.3 数据质量监控
- 5.2.4 数据服务监控
- 5.2.5 数据处理资源监控
- 5.3 Prometheus简介
- 5.4 Grafana简介
- 5.5 使用Grafana和Prometheus来实现数据监控与告警
- 5.5.1 数据链路的告警实现
- 5.5.2 数据任务的告警实现
- 5.5.3 数据质量的告警实现
- 5.5.4 数据服务的告警实现
- 5.5.5 数据处理资源的告警实现
- 第6章 数据服务
- 6.1 如何设计数据服务
- 6.1.1 数据源管理
- 6.1.2 数据服务的敏捷化和可配置化
- 6.1.3 数据服务文档的自动生成
- 6.1.4 数据服务的统一认证与鉴权
- 6.1.5 数据服务的监控与告警
- 6.2 数据服务的性能
- 6.3 数据服务的熔断与降级
- 第7章 数据权限与安全
- 7.1 常见的权限设计模式
- 7.1.1 基于角色的访问控制
- 7.1.2 基于属性的访问控制
- 7.1.3 基于对象的访问控制
- 7.2 数据权限
- 7.2.1 列权限控制
- 7.2.2 行权限控制
- 7.3 数据脱敏
- 7.4 数据安全
- 第8章 数据资产架构
- 8.1 数据资产的架构设计
- 8.1.1 数据获取层
- 8.1.2 数据处理层
- 8.1.3 数据存储层
- 8.1.4 数据管理层
- 8.1.5 数据分析层
- 8.1.6 数据服务层
- 8.2 常见的开源数据资产管理平台
- 8.2.1 Apache Atlas
- 8.2.2 Data Hub
- 8.2.3 OpenMetadata
- 第9章 元数据管理实践
- 9.1 如何理解元数据
- 9.1.1 为何需要元数据
- 9.1.2 如何让元数据产生更大价值
- 9.1.3 元数据分类及其好处
- 9.1.4 元数据管理
- 9.1.5 参与角色
- 9.2 元数据管理
- 9.2.1 元数据模型的组织关系
- 9.2.2 元数据的采集
- 9.2.3 业务域设计
- 9.2.4 业务术语设计
- 9.2.5 元数据标签设计
- 9.2.6 数据Owner
- 9.2.7 数据生命周期
- 9.2.8 元数据注册和发布
- 9.2.9 核心功能介绍
- 第10章 数据建模实践
- 10.1 什么是数据建模
- 10.1.1 数据模型分类
- 10.1.2 数据建模方法
- 10.2 数据仓库建模架构
- 10.3 关系型数据建模
- 10.3.1 概念模型阶段
- 10.3.2 逻辑模型阶段
- 10.3.3 物理模型阶段
- 10.4 维度建模
- 10.4.1 基本概念
- 10.4.2 维度表设计
- 10.4.3 事实表分类
- 10.4.4 基于维度建模的数据分析实践
- 参考文献
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。