展开全部

主编推荐语

全面而系统地概述云数据湖的设置、管理和治理。

内容简介

本书详细介绍了可用于数据处理的表格格式、云产品、框架、存储层,以及如何将这些内容组合在一起,以获得适合自己需求的高性能解决方案。作者在书中提供的决策框架将帮助你明智地决定选择哪种数据湖。本书是大数据领域每个人的书。阅读本书后,你将了解构建云数据湖所需的所有基础知识,并能够以多种方式应用这些知识。

本书主要面向数据架构师、数据开发人员和数据运维专业人员,他们希望广泛地了解设置和运营云数据湖的各个方面。

目录

  • 版权信息
  • O'Reilly Media, Inc.介绍
  • 本书赞誉
  • 前言
  • 第1章 大数据
  • 1.1 什么是大数据
  • 1.2 弹性数据基础设施的挑战
  • 1.3 云计算基础
  • 1.3.1 云计算术语
  • 1.3.2 云的价值主张
  • 1.4 云数据湖架构
  • 1.4.1 本地数据仓库解决方案的限制
  • 1.4.2 什么是云数据湖架构
  • 1.4.3 云数据湖架构的优势
  • 1.5 开启云数据湖之旅
  • 1.6 总结
  • 第2章 云上的大数据架构
  • 2.1 为什么Klodars公司要迁移到云
  • 2.2 云数据湖架构基础
  • 2.2.1 浅谈数据的多样性
  • 2.2.2 云数据湖存储
  • 2.2.3 大数据分析引擎
  • 2.2.4 云数据仓库
  • 2.3 现代数据仓库架构
  • 2.3.1 参考架构
  • 2.3.2 现代数据仓库架构的用例
  • 2.3.3 现代数据仓库架构的优势和挑战
  • 2.4 数据湖仓一体架构
  • 2.4.1 参考架构
  • 2.4.2 数据湖仓一体架构的用例
  • 2.4.3 数据湖仓一体架构的优势和挑战
  • 2.4.4 数据仓库和非结构化数据
  • 2.5 数据网格
  • 2.5.1 参考架构
  • 2.5.2 数据网格架构的用例
  • 2.5.3 数据网格架构的优势和挑战
  • 2.6 什么是适合的架构
  • 2.6.1 了解客户
  • 2.6.2 了解业务驱动因素
  • 2.6.3 考虑增长和未来场景
  • 2.6.4 设计注意事项
  • 2.6.5 混合方法
  • 2.7 总结
  • 第3章 数据湖的设计注意事项
  • 3.1 设置云数据湖基础设施
  • 3.1.1 确定目标
  • 3.1.2 规划架构和可交付成果
  • 3.1.3 云数据湖实施
  • 3.1.4 发布和运行
  • 3.2 在数据湖中组织数据
  • 3.2.1 数据生命中的一天
  • 3.2.2 数据湖区
  • 3.2.3 组织机制
  • 3.3 数据治理简介
  • 3.3.1 数据治理的参与者
  • 3.3.2 数据分类
  • 3.3.3 元数据管理、数据目录和数据共享
  • 3.3.4 数据访问管理
  • 3.3.5 数据质量和可观测性
  • 3.3.6 Klodars公司的数据治理
  • 3.3.7 数据治理总结
  • 3.4 管理数据湖成本
  • 3.4.1 揭秘云上的数据湖成本
  • 3.4.2 数据湖成本策略
  • 3.5 总结
  • 第4章 可扩展的数据湖
  • 4.1 可扩展性探秘
  • 4.1.1 什么是可扩展性
  • 4.1.2 日常生活中的规模
  • 4.1.3 数据湖架构中的可扩展性
  • 4.2 数据湖处理系统的内部
  • 4.2.1 内部数据复制
  • 4.2.2 内部ELT/ETL处理
  • 4.2.3 关于其他交互式查询的说明
  • 4.3 可扩展数据湖解决方案的注意事项
  • 4.3.1 选择合适的云产品
  • 4.3.2 峰值容量规划
  • 4.3.3 数据格式和作业配置文件
  • 4.4 总结
  • 第5章 优化云数据湖架构以提高性能
  • 5.1 度量性能的基础知识
  • 5.1.1 性能的目标和指标
  • 5.1.2 度量性能
  • 5.1.3 优化以提高性能
  • 5.2 云数据湖性能
  • 5.2.1 SLA、SLO和SLI
  • 5.2.2 示例:Klodars公司如何管理其SLA、SLO和SLI
  • 5.3 性能驱动因素
  • 5.3.1 复制作业的性能驱动因素
  • 5.3.2 Spark作业的性能驱动因素
  • 5.4 性能调优的优化原则和技术
  • 5.4.1 数据格式
  • 5.4.2 数据组织和分区
  • 5.4.3 在Apache Spark上选择正确的配置
  • 5.5 减少数据传输开销
  • 5.6 优质产品和性能
  • 5.6.1 大型虚拟机案例
  • 5.6.2 闪存案例
  • 5.7 总结
  • 第6章 深入了解数据格式
  • 6.1 为什么我们需要这些开放数据格式
  • 6.1.1 为什么我们需要存储表格数据
  • 6.1.2 为什么在云数据湖中存储表格数据是一个问题
  • 6.2 Delta Lake
  • 6.2.1 为什么开发Delta Lake
  • 6.2.2 Delta Lake如何工作
  • 6.2.3 什么时候使用Delta Lake
  • 6.3 Apache Iceberg
  • 6.3.1 为什么开发Apache Iceberg
  • 6.3.2 Apache Iceberg是如何工作的
  • 6.3.3 什么时候使用Apache Iceberg
  • 6.4 Apache Hudi
  • 6.4.1 为什么孵化Apache Hudi
  • 6.4.2 Apache Hudi如何工作
  • 6.4.3 什么时候使用Apache Hudi
  • 6.5 总结
  • 第7章 架构的决策框架
  • 7.1 云数据湖评估
  • 7.2 云数据湖评估分析
  • 7.2.1 从零开始
  • 7.2.2 将现有数据湖或数据仓库迁移到云
  • 7.2.3 改进现有的云数据湖
  • 7.3 决策框架的第1阶段:评估
  • 7.3.1 了解客户需求
  • 7.3.2 了解改进的机会
  • 7.3.3 了解业务驱动因素
  • 7.3.4 确定需求的优先级来完成评估阶段
  • 7.4 决策框架的第2阶段:定义
  • 7.4.1 确定云数据湖的设计选择
  • 7.4.2 规划云数据湖项目可交付成果
  • 7.5 决策框架的第3阶段:实施
  • 7.6 决策框架的第4阶段:操作
  • 7.7 总结
  • 第8章 数据启迪未来的六大经验
  • 8.1 第1课:关注云数据湖的工作方式和时间,而不是“如果”和“为什么”
  • 8.2 第2课:权力越大,责任越大
  • 8.3 第3课:客户引领技术,而不是技术引领客户
  • 8.4 第4课:改变是不可避免的,所以要做好准备
  • 8.5 第5课:建立同理心,分清轻重缓急
  • 8.6 第6课:巨大的影响不会在一夜之间发生
  • 8.7 总结
  • 附录 云数据湖决策框架模板
  • 作者简介
  • 封面简介
  • 推荐阅读
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。