互联网
类型
可以朗读
语音朗读
188千字
字数
2024-05-01
发行日期
展开全部
主编推荐语
一本关于如何清洗、整理和理解数据的手册。
内容简介
本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。
之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。接着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。
目录
- 版权信息
- O'Reilly Media,Inc.介绍
- 本书赞誉
- 译者序
- 前言
- 第1章 为什么数据质量值得关注
- 1.1 什么是数据质量
- 1.2 构筑当下
- 1.3 总结
- 第2章 对可靠数据系统的构建模块进行组装
- 2.1 了解事务型数据和分析型数据之间的差异
- 2.2 是什么让它们有所不同
- 2.3 数据仓库与数据湖
- 2.4 收集数据质量指标
- 2.5 设计数据目录
- 2.6 构建数据目录
- 2.7 总结
- 第3章 收集、清洗、转换和测试数据
- 3.1 收集数据
- 3.2 清洗数据
- 3.3 批处理与流处理
- 3.4 流处理的数据质量
- 3.5 数据标准化
- 3.6 运行分析型数据转换
- 3.7 警报和测试
- 3.8 使用Apache Airflow管理数据质量
- 3.9 总结
- 第4章 数据管道的监控和异常检测
- 4.1 了解已知的未知和未知的未知
- 4.2 构建异常检测的算法
- 4.3 为模式和沿袭构建监控器
- 4.4 使用Python和机器学习扩展异常检测
- 4.5 深入探究:其他有用的异常检测方法
- 4.6 为数据仓库和数据湖分别设计数据质量监控器
- 4.7 总结
- 第5章 为数据可靠性进行架构设计
- 5.1 在摄取数据时评估并维护高数据可靠性
- 5.2 度量和维护管道中的数据质量
- 5.3 了解下游的数据质量
- 5.4 构建数据平台
- 5.5 建立对数据的信任
- 5.6 案例分析:Blinkist
- 5.7 总结
- 第6章 解决大规模数据质量问题
- 6.1 在软件研发过程中解决数据质量问题
- 6.2 数据事件管理
- 6.3 事件应对与缓解策略
- 6.4 案例分析:PagerDuty公司的数据事件管理
- 6.5 总结
- 第7章 构建端到端的数据沿袭
- 7.1 为现代数据系统构建端到端字段级别的沿袭
- 7.2 案例分析:在福克斯公司构建数据可靠性
- 7.3 总结
- 第8章 推广和普及数据质量
- 8.1 将“数据”视为产品
- 8.2 将数据视为产品的经验
- 8.3 在数据平台中建立信任
- 8.4 分配数据质量所有权
- 8.5 为数据质量创建责任制
- 8.6 平衡数据可访问性与数据信任
- 8.7 对数据进行认证
- 8.8 实施数据认证流程的七个步骤
- 8.9 案例分析:Toast寻找适合其数据团队结构的过程
- 8.10 提高数据素养
- 8.11 优先考虑数据治理和合规性
- 8.12 构建数据质量策略
- 8.13 总结
- 第9章 现实世界中的数据质量:对话和案例分析
- 9.1 为更高的数据质量构建数据网格
- 9.2 为什么要实施数据网格
- 9.3 与Zhamak Dehghani的对话:数据质量在数据网格中的作用
- 9.4 案例分析:Kolibri Games的数据栈之旅
- 9.5 让元数据为业务服务
- 9.6 通过数据发现释放元数据的价值
- 9.7 决定何时开始处理公司的数据质量问题
- 9.8 总结
- 第10章 开创可靠数据系统的未来
- 10.1 要积极主动,而不是消极被动
- 10.2 对数据质量和数据可靠性未来的预测
- 10.3 何去何从
- 作者介绍
- 封面介绍
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。