展开全部

主编推荐语

深入探讨数据资产管理的核心技术与应用。

内容简介

本书为读者提供一套可以落地的数据资产管理框架,并详解两个基于该框架进行数据资产管理的应用案例,使读者能更好地了解数据资产管理底层所涉及的众多核心技术,让数据可以发挥出更大的价值。

全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。

第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。

第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

目录

  • 版权信息
  • 内容简介
  • 推荐序1
  • 推荐序2
  • 推荐序3
  • 作者简介
  • 前言
  • 第1章 认识数据资产
  • 1.1 数据资产的基本介绍
  • 1.2 数据资产的分类
  • 1.3 数据资产的价值评估
  • 1.4 数据资产的质量
  • 1.5 数据资产的存储
  • 1.6 数据资产管理
  • 1.7 数据资产管理的信息化建设
  • 1.8 数据资产与人工智能
  • 第2章 元数据的采集与存储
  • 2.1 Hive中的元数据采集
  • 2.1.1 基于Hive Meta DB的元数据采集
  • 2.1.2 基于Hive Catalog的元数据采集
  • 2.1.3 基于Spark Catalog的元数据采集
  • 2.2 Delta Lake中的元数据采集
  • 2.2.1 基于Delta Lake自身设计来采集元数据
  • 2.2.2 基于Spark Catalog来采集元数据
  • 2.3 MySQL中的元数据采集
  • 2.4 Apache Hudi中的元数据采集
  • 2.4.1 基于Spark Catalog采集元数据
  • 2.4.2 Hudi Timeline Meta Server
  • 2.4.3 基于Hive Meta DB采集元数据
  • 2.5 Apache Iceberg中的元数据采集
  • 2.5.1 Iceberg的元数据设计
  • 2.5.2 Iceberg元数据的采集
  • 2.6 元数据的存储模型设计
  • 2.6.1 如何对元数据进行整合
  • 2.6.2 元数据的存储模型设计
  • 第3章 数据血缘
  • 3.1 获取数据血缘的技术实现
  • 3.1.1 如何从Hive中获取数据血缘
  • 3.1.2 从Spark执行计划中获取数据血缘
  • 3.1.3 从Spark SQL语句中获取数据血缘
  • 3.1.4 从Flink中获取数据血缘
  • 3.1.5 从数据任务的编排系统中获取数据血缘
  • 3.2 数据血缘的存储模型与展示设计
  • 第4章 数据质量的技术实现
  • 4.1 质量数据采集的技术实现
  • 4.1.1 定义数据采集的规则
  • 4.1.2 定时Job的技术选型
  • 4.2 如何处理采集到的质量数据
  • 4.3 质量数据的存储模型设计
  • 4.4 常见的开源数据质量管理平台
  • 4.4.1 Apache Griffin
  • 4.4.2 Qualitis
  • 第5章 数据监控与告警
  • 5.1 数据监控
  • 5.1.1 数据监控的种类
  • 5.1.2 监控数据的特点与存储方式
  • 5.2 常见的数据监控目标
  • 5.2.1 数据链路监控
  • 5.2.2 数据任务监控
  • 5.2.3 数据质量监控
  • 5.2.4 数据服务监控
  • 5.2.5 数据处理资源监控
  • 5.3 Prometheus简介
  • 5.4 Grafana简介
  • 5.5 使用Grafana和Prometheus来实现数据监控与告警
  • 5.5.1 数据链路的告警实现
  • 5.5.2 数据任务的告警实现
  • 5.5.3 数据质量的告警实现
  • 5.5.4 数据服务的告警实现
  • 5.5.5 数据处理资源的告警实现
  • 第6章 数据服务
  • 6.1 如何设计数据服务
  • 6.1.1 数据源管理
  • 6.1.2 数据服务的敏捷化和可配置化
  • 6.1.3 数据服务文档的自动生成
  • 6.1.4 数据服务的统一认证与鉴权
  • 6.1.5 数据服务的监控与告警
  • 6.2 数据服务的性能
  • 6.3 数据服务的熔断与降级
  • 第7章 数据权限与安全
  • 7.1 常见的权限设计模式
  • 7.1.1 基于角色的访问控制
  • 7.1.2 基于属性的访问控制
  • 7.1.3 基于对象的访问控制
  • 7.2 数据权限
  • 7.2.1 列权限控制
  • 7.2.2 行权限控制
  • 7.3 数据脱敏
  • 7.4 数据安全
  • 第8章 数据资产架构
  • 8.1 数据资产的架构设计
  • 8.1.1 数据获取层
  • 8.1.2 数据处理层
  • 8.1.3 数据存储层
  • 8.1.4 数据管理层
  • 8.1.5 数据分析层
  • 8.1.6 数据服务层
  • 8.2 常见的开源数据资产管理平台
  • 8.2.1 Apache Atlas
  • 8.2.2 Data Hub
  • 8.2.3 OpenMetadata
  • 第9章 元数据管理实践
  • 9.1 如何理解元数据
  • 9.1.1 为何需要元数据
  • 9.1.2 如何让元数据产生更大价值
  • 9.1.3 元数据分类及其好处
  • 9.1.4 元数据管理
  • 9.1.5 参与角色
  • 9.2 元数据管理
  • 9.2.1 元数据模型的组织关系
  • 9.2.2 元数据的采集
  • 9.2.3 业务域设计
  • 9.2.4 业务术语设计
  • 9.2.5 元数据标签设计
  • 9.2.6 数据Owner
  • 9.2.7 数据生命周期
  • 9.2.8 元数据注册和发布
  • 9.2.9 核心功能介绍
  • 第10章 数据建模实践
  • 10.1 什么是数据建模
  • 10.1.1 数据模型分类
  • 10.1.2 数据建模方法
  • 10.2 数据仓库建模架构
  • 10.3 关系型数据建模
  • 10.3.1 概念模型阶段
  • 10.3.2 逻辑模型阶段
  • 10.3.3 物理模型阶段
  • 10.4 维度建模
  • 10.4.1 基本概念
  • 10.4.2 维度表设计
  • 10.4.3 事实表分类
  • 10.4.4 基于维度建模的数据分析实践
  • 参考文献
展开全部

评分及书评

评分不足
1个评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。