互联网
类型
可以朗读
语音朗读
119千字
字数
2024-07-01
发行日期
展开全部
主编推荐语
全面而系统地概述云数据湖的设置、管理和治理。
内容简介
本书详细介绍了可用于数据处理的表格格式、云产品、框架、存储层,以及如何将这些内容组合在一起,以获得适合自己需求的高性能解决方案。作者在书中提供的决策框架将帮助你明智地决定选择哪种数据湖。本书是大数据领域每个人的书。阅读本书后,你将了解构建云数据湖所需的所有基础知识,并能够以多种方式应用这些知识。
本书主要面向数据架构师、数据开发人员和数据运维专业人员,他们希望广泛地了解设置和运营云数据湖的各个方面。
目录
- 版权信息
- O'Reilly Media, Inc.介绍
- 本书赞誉
- 前言
- 第1章 大数据
- 1.1 什么是大数据
- 1.2 弹性数据基础设施的挑战
- 1.3 云计算基础
- 1.3.1 云计算术语
- 1.3.2 云的价值主张
- 1.4 云数据湖架构
- 1.4.1 本地数据仓库解决方案的限制
- 1.4.2 什么是云数据湖架构
- 1.4.3 云数据湖架构的优势
- 1.5 开启云数据湖之旅
- 1.6 总结
- 第2章 云上的大数据架构
- 2.1 为什么Klodars公司要迁移到云
- 2.2 云数据湖架构基础
- 2.2.1 浅谈数据的多样性
- 2.2.2 云数据湖存储
- 2.2.3 大数据分析引擎
- 2.2.4 云数据仓库
- 2.3 现代数据仓库架构
- 2.3.1 参考架构
- 2.3.2 现代数据仓库架构的用例
- 2.3.3 现代数据仓库架构的优势和挑战
- 2.4 数据湖仓一体架构
- 2.4.1 参考架构
- 2.4.2 数据湖仓一体架构的用例
- 2.4.3 数据湖仓一体架构的优势和挑战
- 2.4.4 数据仓库和非结构化数据
- 2.5 数据网格
- 2.5.1 参考架构
- 2.5.2 数据网格架构的用例
- 2.5.3 数据网格架构的优势和挑战
- 2.6 什么是适合的架构
- 2.6.1 了解客户
- 2.6.2 了解业务驱动因素
- 2.6.3 考虑增长和未来场景
- 2.6.4 设计注意事项
- 2.6.5 混合方法
- 2.7 总结
- 第3章 数据湖的设计注意事项
- 3.1 设置云数据湖基础设施
- 3.1.1 确定目标
- 3.1.2 规划架构和可交付成果
- 3.1.3 云数据湖实施
- 3.1.4 发布和运行
- 3.2 在数据湖中组织数据
- 3.2.1 数据生命中的一天
- 3.2.2 数据湖区
- 3.2.3 组织机制
- 3.3 数据治理简介
- 3.3.1 数据治理的参与者
- 3.3.2 数据分类
- 3.3.3 元数据管理、数据目录和数据共享
- 3.3.4 数据访问管理
- 3.3.5 数据质量和可观测性
- 3.3.6 Klodars公司的数据治理
- 3.3.7 数据治理总结
- 3.4 管理数据湖成本
- 3.4.1 揭秘云上的数据湖成本
- 3.4.2 数据湖成本策略
- 3.5 总结
- 第4章 可扩展的数据湖
- 4.1 可扩展性探秘
- 4.1.1 什么是可扩展性
- 4.1.2 日常生活中的规模
- 4.1.3 数据湖架构中的可扩展性
- 4.2 数据湖处理系统的内部
- 4.2.1 内部数据复制
- 4.2.2 内部ELT/ETL处理
- 4.2.3 关于其他交互式查询的说明
- 4.3 可扩展数据湖解决方案的注意事项
- 4.3.1 选择合适的云产品
- 4.3.2 峰值容量规划
- 4.3.3 数据格式和作业配置文件
- 4.4 总结
- 第5章 优化云数据湖架构以提高性能
- 5.1 度量性能的基础知识
- 5.1.1 性能的目标和指标
- 5.1.2 度量性能
- 5.1.3 优化以提高性能
- 5.2 云数据湖性能
- 5.2.1 SLA、SLO和SLI
- 5.2.2 示例:Klodars公司如何管理其SLA、SLO和SLI
- 5.3 性能驱动因素
- 5.3.1 复制作业的性能驱动因素
- 5.3.2 Spark作业的性能驱动因素
- 5.4 性能调优的优化原则和技术
- 5.4.1 数据格式
- 5.4.2 数据组织和分区
- 5.4.3 在Apache Spark上选择正确的配置
- 5.5 减少数据传输开销
- 5.6 优质产品和性能
- 5.6.1 大型虚拟机案例
- 5.6.2 闪存案例
- 5.7 总结
- 第6章 深入了解数据格式
- 6.1 为什么我们需要这些开放数据格式
- 6.1.1 为什么我们需要存储表格数据
- 6.1.2 为什么在云数据湖中存储表格数据是一个问题
- 6.2 Delta Lake
- 6.2.1 为什么开发Delta Lake
- 6.2.2 Delta Lake如何工作
- 6.2.3 什么时候使用Delta Lake
- 6.3 Apache Iceberg
- 6.3.1 为什么开发Apache Iceberg
- 6.3.2 Apache Iceberg是如何工作的
- 6.3.3 什么时候使用Apache Iceberg
- 6.4 Apache Hudi
- 6.4.1 为什么孵化Apache Hudi
- 6.4.2 Apache Hudi如何工作
- 6.4.3 什么时候使用Apache Hudi
- 6.5 总结
- 第7章 架构的决策框架
- 7.1 云数据湖评估
- 7.2 云数据湖评估分析
- 7.2.1 从零开始
- 7.2.2 将现有数据湖或数据仓库迁移到云
- 7.2.3 改进现有的云数据湖
- 7.3 决策框架的第1阶段:评估
- 7.3.1 了解客户需求
- 7.3.2 了解改进的机会
- 7.3.3 了解业务驱动因素
- 7.3.4 确定需求的优先级来完成评估阶段
- 7.4 决策框架的第2阶段:定义
- 7.4.1 确定云数据湖的设计选择
- 7.4.2 规划云数据湖项目可交付成果
- 7.5 决策框架的第3阶段:实施
- 7.6 决策框架的第4阶段:操作
- 7.7 总结
- 第8章 数据启迪未来的六大经验
- 8.1 第1课:关注云数据湖的工作方式和时间,而不是“如果”和“为什么”
- 8.2 第2课:权力越大,责任越大
- 8.3 第3课:客户引领技术,而不是技术引领客户
- 8.4 第4课:改变是不可避免的,所以要做好准备
- 8.5 第5课:建立同理心,分清轻重缓急
- 8.6 第6课:巨大的影响不会在一夜之间发生
- 8.7 总结
- 附录 云数据湖决策框架模板
- 作者简介
- 封面简介
- 推荐阅读
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。