互联网
类型
可以朗读
语音朗读
176千字
字数
2020-01-01
发行日期
展开全部
主编推荐语
使用HiveQL查询和分析大数据。
内容简介
本书以Hive为开发平台,主要介绍了如何使用HiveQL来查询和分析存储在Hadoop分布式文件系统上的大数据集合,具体内容包括Hive入门、Hive数据库及表操作、Hive元数据、Hive高级操作、Hive函数与Streaming、Hive视图与索引、Hive调优、Hive与HBase集成、数据迁移框架Sqoop等。
本书介绍的每个任务都运用了大量案例,紧密结合实际应用,融入了含金量十足的开发经验。在此基础上,本书通过丰富的练习和操作实践,帮助读者巩固所学的内容。本书配以多元的学习资源和支持服务,包括视频、案例素材、学习社区等,为读者提供全方位的学习体验。
目录
- 版权信息
- 内容提要
- 大数据核心技术系列编委会
- 序言
- 前言
- 智慧教材使用方法
- 第1章 Hive入门
- 任务1 了解Hive基础
- 1.1.1 认识Hive
- 1.1.2 Hive架构设计
- 1.1.3 Hive工作流程
- 1.1.4 Hive适用场景
- 任务2 掌握Hive数据存储模型
- 1.2.1 Hive存储格式
- 1.2.2 Hive数据单元
- 1.2.3 Hive存储模型
- 任务3 安装配置Hive环境
- 1.3.1 Hive的发展历程
- 1.3.2 搭建Hive CDH环境
- 1.3.3 Hive初体验
- 1.3.4 Hive开发环境
- 1.3.5 技能实训
- 本章小结
- 本章作业
- 第2章 Hive数据库及表操作
- 任务1 熟悉Hive数据类型
- 2.1.1 基本数据类型
- 2.1.2 复杂数据类型
- 任务2 使用Hive管理雇员信息
- 2.2.1 Hive DDL操作
- 2.2.2 Hive DML操作
- 2.2.3 Hive Shell
- 2.2.4 技能实训
- 任务3 使用Hive Java API操作雇员表
- 2.3.1 开发环境搭建
- 2.3.2 JDBC操作Hive数据库
- 2.3.3 技能实训
- 本章小结
- 本章作业
- 第3章 Hive元数据
- 任务1 访问雇员数据的元数据信息
- 3.1.1 Hive元数据的概念及存储方式
- 3.1.2 雇员数据元数据信息查询
- 3.1.3 技能实训
- 任务2 使用Hive Java API读取雇员表元数据
- 3.2.1 hive-metastore组件
- 3.2.2 使用HiveMetaStoreClient访问元数据
- 3.2.3 技能实训
- 任务3 使用HCatalog管理雇员数据的元数据
- 3.3.1 HCatalog介绍
- 3.3.2 HCatalog应用
- 本章小结
- 本章作业
- 第4章 Hive高级操作
- 任务1 关联查询零售商店订单明细
- 4.1.1 SELECT语句
- 4.1.2 关联查询
- 4.1.3 联合查询
- 4.1.4 技能实训
- 任务2 使用分组排序实现商品销售排行
- 4.2.1 排序
- 4.2.2 分组聚合
- 4.2.3 技能实训
- 任务3 使用窗口函数实现零售数据统计
- 4.3.1 窗口函数
- 4.3.2 窗口的定义
- 4.3.3 技能实训
- 本章小结
- 本章作业
- 第5章 Hive函数与Streaming
- 任务1 应用内置函数
- 5.1.1 函数概述
- 5.1.2 内置函数详解
- 5.1.3 技能实训
- 任务2 使用Java编写Hive自定义函数
- 5.2.1 自定义函数概述
- 5.2.2 UDF
- 5.2.3 UDAF
- 5.2.4 UDTF
- 5.2.5 技能实训
- 任务3 使用Streaming实现数据处理
- 5.3.1 Streaming概念
- 5.3.2 Streaming应用
- 5.3.3 技能实训
- 本章小结
- 本章作业
- 第6章 Hive视图与索引
- 任务1 创建并管理零售商店的顾客表和订单表视图
- 6.1.1 视图的基本概念及使用场景
- 6.1.2 视图的基本操作
- 6.1.3 Materialized Views和Lateral View
- 6.1.4 技能实训
- 任务2 建立零售商店顾客表索引
- 6.2.1 Hive索引的基本概念及使用场景
- 6.2.2 为零售商店顾客表建立索引
- 6.2.3 与索引相关的元数据表
- 6.2.4 技能实训
- 本章小结
- 本章作业
- 第7章 Hive调优
- 任务1 熟悉Hive性能调优策略
- 7.1.1 Hive性能调优使用工具
- 7.1.2 优化Map Task和Reduce Task个数
- 7.1.3 Hive Job优化
- 7.1.4 Hive Query优化
- 7.1.5 设置压缩
- 7.1.6 技能实训
- 任务2 解决Hive数据倾斜问题
- 7.2.1 数据倾斜问题
- 7.2.2 数据倾斜问题解决方案
- 任务3 Hive集成Tez
- 7.3.1 Tez简介
- 7.3.2 Tez安装配置
- 7.3.3 Hive与Tez集成
- 7.3.4 技能实训
- 本章小结
- 本章作业
- 第8章 Hive与HBase集成
- 任务1 理解Hive与HBase集成的场景及原理
- 8.1.1 Hive与HBase集成的应用场景
- 8.1.2 Hive与HBase集成原理
- 任务2 实现Hive与HBase集成
- 8.2.1 Hive与HBase集成配置
- 8.2.2 Hive与HBase集成功能测试
- 8.2.3 将零售商店顾客购买统计信息存入HBase表
- 8.2.4 技能实训
- 任务3 使用Phoenix操作HBase数据库
- 8.3.1 Phoenix简介
- 8.3.2 搭建Phoenix CDH环境
- 8.3.3 技能实训
- 本章小结
- 本章作业
- 第9章 数据迁移框架Sqoop
- 任务1 使用Sqoop完成Hadoop与MySQL间的数据迁移
- 9.1.1 Sqoop简介
- 9.1.2 导入MySQL数据到HDFS
- 9.1.3 导入MySQL数据到Hive
- 9.1.4 导入MySQL数据到HBase
- 9.1.5 导出HDFS数据到MySQL
- 9.1.6 技能实训
- 任务2 使用Sqoop Job完成Hive与MySQL间的数据迁移
- 9.2.1 Sqoop Job
- 9.2.2 技能实训
- 本章小结
- 本章作业
- 第10章 项目实训:电子商务消费行为分析
- 10.1 项目准备
- 10.2 难点分析
- 10.3 项目实现思路
- 本章小结
- 本章作业
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。