展开全部

主编推荐语

“数据仓库之父”比尔·恩门作品,数据湖仓构建指南。

内容简介

数据湖仓是一个现代化的开放式架构,拥有当今热门的开源数据技术的广度和灵活性。本书从初学者的角度出发,通过对数据湖仓重要概念的剖析,对数据湖仓的相关知识进行深入浅出的讲解。

全书共18章,对数据湖仓的基础知识、数据工程、业务价值、数据集成等方面进行深入探讨,同时展望数据架构的演化趋势,使读者能够领会数据湖仓的精髓,最终轻松、全面地管理数据湖仓项目。

目录

  • 版权信息
  • 内容提要
  • 本书编译组
  • 译者序
  • 前言
  • 资源与支持
  • 第1章 让数据可信
  • 1.1 做一个成熟的终端用户
  • 1.2 不断攀升的可信目标
  • 1.3 可信数据的要素
  • 1.4 小结
  • 第2章 基础数据
  • 2.1 构建应用程序
  • 2.2 以人工智能医疗为例
  • 2.3 基础数据的组成要素
  • 2.4 小结
  • 第3章 如何避免不良数据
  • 3.1 输入错误
  • 3.2 键的问题
  • 3.3 重复记录
  • 3.4 拼写错误
  • 3.5 兼容性
  • 3.6 编制文档
  • 3.7 小结
  • 第4章 不同类型的数据
  • 4.1 数据量
  • 4.2 数据的业务价值
  • 4.3 数据的访问概率
  • 4.4 数据降级
  • 4.5 基于大容量存储器的数据归档机制
  • 4.6 小结
  • 第5章 数据抽象
  • 5.1 结构化数据模型
  • 5.2 本体和分类标准
  • 5.3 模拟/物联网数据的蒸馏算法
  • 5.4 小结
  • 第6章 结构化数据
  • 6.1 业务交易生成的数据
  • 6.2 结构化记录
  • 6.3 键
  • 6.4 联机事务处理
  • 6.5 组织数据
  • 6.6 小结
  • 第7章 文本数据
  • 7.1 文本数据的类型
  • 7.2 使用文本数据时的语言障碍
  • 7.3 多义词
  • 7.4 提取业务的含义
  • 7.5 小结
  • 第8章 模拟/物联网数据
  • 8.1 数据有用性的差异
  • 8.2 摄像头
  • 8.3 人工审视
  • 8.4 日期分隔
  • 8.5 数据筛选
  • 8.6 阈值方法
  • 8.7 时间排序方法
  • 8.8 小结
  • 第9章 大容量存储器与数据湖仓
  • 9.1 大容量存储器的优缺点
  • 9.2 访问概率
  • 9.3 索引
  • 9.4 元数据和大容量存储器
  • 9.5 小结
  • 第10章 数据架构与数据工程
  • 10.1 两个角色如何通力配合
  • 10.2 角色与数据类型
  • 10.3 小结
  • 第11章 业务价值
  • 11.1 业务价值才是驱动力
  • 11.2 一切都离不开钱
  • 11.3 基础数据
  • 11.4 难以协调
  • 11.5 领域
  • 11.6 小结
  • 第12章 数据需要的层次
  • 12.1 数据获取
  • 12.2 数据传输与存储
  • 12.3 数据转换
  • 12.4 数据标签、整合与汇聚
  • 12.5 数据分析与机器学习
  • 12.6 小结
  • 第13章 数据湖仓中的数据集成
  • 13.1 不同种类数据的集成
  • 13.2 自动集成
  • 13.3 ETL
  • 13.4 文本ETL
  • 13.5 数据蒸馏算法
  • 13.6 小结
  • 第14章 分析
  • 14.1 结构化数据分析
  • 14.2 文本数据分析
  • 14.3 模拟/物联网数据分析
  • 14.4 结构化数据和文本数据的结合
  • 14.5 连接3个环境
  • 14.6 执行分析
  • 14.7 小结
  • 第15章 软数据
  • 15.1 电子表格数据
  • 15.2 互联网数据
  • 15.3 政府数据
  • 15.4 小结
  • 第16章 描述性数据
  • 16.1 数据模型
  • 16.2 元数据
  • 16.3 结构化数据转换
  • 16.4 结构化数据源
  • 16.5 数据选择标准
  • 16.6 数据定义语言
  • 16.7 数据编码
  • 16.8 数据关系
  • 16.9 文本数据
  • 16.10 本体
  • 16.11 分类标准
  • 16.12 关联
  • 16.13 上下文情境
  • 16.14 文本数据源
  • 16.15 模拟/物联网数据
  • 16.16 算法
  • 16.17 阈值
  • 16.18 时间排序
  • 16.19 模拟/物联网数据源
  • 16.20 数据血缘
  • 16.21 小结
  • 第17章 数据目录
  • 17.1 永久维护
  • 17.2 开放
  • 17.3 不同数据类型的内部结构
  • 17.4 小结
  • 第18章 数据架构的演化
  • 18.1 伊始
  • 18.2 应用程序
  • 18.3 磁带文件
  • 18.4 硬盘存储
  • 18.5 OLTP
  • 18.6 个人计算机
  • 18.7 4GL处理技术和数据抽取应用程序
  • 18.8 数据仓库
  • 18.9 数据集市
  • 18.10 互联网和物联网数据
  • 18.11 数据湖
  • 18.12 数据湖仓
  • 18.13 小结
展开全部

评分及书评

评分不足
1个评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。