互联网
类型
可以朗读
语音朗读
148千字
字数
2024-05-01
发行日期
展开全部
主编推荐语
Hive常用知识点及新版本、新特性一网打尽。
内容简介
Hive是大数据领域的一个重要开发工具。本书基于Hive3.1.3版本进行编写,首先,简单介绍了Hive的起源和发展,以及Hive的安装和部署;其次,分别介绍了Hive的数据定义语言、数据操作语言、查询语言,以及各种函数,其中穿插安排了大量的综合案例练习;再次,讲解了分区表和分桶表,以及文件的压缩;最后,重点讲解了Hive在使用不同执行引擎时的企业级性能调优手段。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 Hive入门
- 1.1 什么是Hadoop
- 1.2 什么是Hive
- 1.3 Hive的架构
- 1.4 学前导读
- 1.4.1 学习的基本要求
- 1.4.2 环境准备
- 1.5 本章总结
- 第2章 Hive的安装部署
- 2.1 Hive的安装
- 2.1.1 Hive初体验
- 2.1.2 MySQL的安装和元数据配置
- 2.1.3 Hive的服务部署
- 2.2 Hive的使用技巧
- 2.2.1 常用交互命令
- 2.2.2 参数配置方式
- 2.2.3 常见属性配置
- 2.3 本章总结
- 第3章 数据定义语言
- 3.1 数据库的定义
- 3.2 表的定义
- 3.2.1 创建表
- 3.2.2 表的其他定义语言
- 3.3 本章总结
- 第4章 数据操作语言
- 4.1 数据加载
- 4.2 数据插入
- 4.2.1 将查询结果插入表中
- 4.2.2 将给定values插入表中
- 4.2.3 将查询结果写入目标路径
- 4.3 数据的导出和导入
- 4.4 本章总结
- 第5章 查询
- 5.1 数据准备
- 5.2 基本查询
- 5.2.1 select子句——全表和特定列查询
- 5.2.2 列别名
- 5.2.3 limit子句
- 5.2.4 order by子句
- 5.2.5 where子句
- 5.2.6 关系运算符
- 5.2.7 逻辑运算符
- 5.2.8 算术运算符
- 5.3 分组聚合
- 5.3.1 聚合函数
- 5.3.2 group by子句
- 5.3.3 having子句
- 5.4 join连接
- 5.4.1 join连接语法的简介与表别名
- 5.4.2 数据准备
- 5.4.3 连接分类
- 5.4.4 多表连接
- 5.4.5 笛卡儿积连接
- 5.4.6 join连接与MapReduce程序
- 5.4.7 联合(union&union all)
- 5.5 本章总结
- 第6章 综合案例练习之基础查询
- 6.1 环境准备
- 6.2 简单查询练习
- 6.3 汇总与分组练习
- 6.3.1 汇总练习
- 6.3.2 分组练习
- 6.3.3 对分组结果进行条件查询
- 6.3.4 查询结果排序和分组指定条件
- 6.4 复杂查询练习
- 6.5 多表查询练习
- 6.5.1 表连接
- 6.5.2 多表连接
- 6.6 本章总结
- 第7章 初级函数
- 7.1 函数简介
- 7.2 单行函数
- 7.2.1 数值函数
- 7.2.2 字符串函数
- 7.2.3 日期函数
- 7.2.4 流程控制函数
- 7.2.5 集合函数
- 7.2.6 案例演示
- 7.3 高级聚合函数
- 7.4 本章总结
- 第8章 综合案例练习之初级函数
- 8.1 环境准备
- 8.1.1 用户信息表
- 8.1.2 商品信息表
- 8.1.3 商品品类信息表
- 8.1.4 订单信息表
- 8.1.5 订单明细表
- 8.1.6 用户登录明细表
- 8.1.7 商品价格变更明细表
- 8.1.8 配送信息表
- 8.1.9 好友关系表
- 8.1.10 收藏信息表
- 8.2 初级函数练习
- 8.2.1 筛选2021年总销量低于100件的商品
- 8.2.2 查询每日新增用户数
- 8.2.3 用户注册、登录、下单综合统计
- 8.2.4 向用户推荐好友收藏的商品
- 8.2.5 男性和女性用户每日订单总金额统计
- 8.2.6 购买过商品1和商品2但没有购买过商品3的用户统计
- 8.2.7 每日商品1和商品2的销量差值统计
- 8.2.8 根据商品销售情况进行商品分类
- 8.2.9 查询有新增用户的日期的新增用户数和新增用户1日留存率
- 8.2.10 登录次数及交易次数统计
- 8.2.11 统计每个商品各年度销售总金额
- 8.2.12 某周内每个商品的每日销售情况
- 8.2.13 形成同期商品售卖分析表
- 8.2.14 国庆节期间每个商品的总收藏量和总购买量统计
- 8.2.15 国庆节期间各品类商品的7日动销率和滞销率
- 8.3 本章总结
- 第9章 高级函数
- 9.1 表生成函数
- 9.1.1 常用的UDTF
- 9.1.2 案例演示
- 9.2 窗口函数
- 9.2.1 语法讲解
- 9.2.2 常用窗口函数
- 9.2.3 案例演示
- 9.3 用户自定义函数
- 9.3.1 概述
- 9.3.2 自定义UDF函数案例
- 9.4 本章总结
- 第10章 综合案例练习之高级函数
- 10.1 高级函数练习题
- 10.1.1 查询各品类销售商品的种类数及销量最高的商品
- 10.1.2 查询首次下单后第二日连续下单的用户比率
- 10.1.3 每件商品销售首年的年份、销售数量和销售总金额
- 10.1.4 查询所有用户连续登录2日及以上的日期区间
- 10.1.5 订单金额趋势分析
- 10.1.6 查询每名用户登录日期的最大空档期
- 10.1.7 查询同一时间多地登录的用户
- 10.1.8 销售总金额完成任务指标的商品
- 10.1.9 各品类中商品价格的中位数
- 10.1.10 求商品连续售卖的时间区间
- 10.1.11 根据活跃间隔对用户进行分级的结果统计
- 10.2 面试真题
- 10.2.1 同时在线人数问题
- 10.2.2 会话划分问题
- 10.2.3 间断连续登录用户问题
- 10.2.4 日期交叉问题
- 10.3 本章总结
- 第11章 分区表和分桶表
- 11.1 分区表
- 11.1.1 分区表基本语法
- 11.1.2 二级分区表
- 11.1.3 动态分区
- 11.2 分桶表
- 11.2.1 分桶表基本语法
- 11.2.2 分桶排序表
- 11.3 本章总结
- 第12章 文件格式和压缩
- 12.1 文件格式
- 12.1.1 Text Flile
- 12.1.2 ORC
- 12.1.3 Parquet
- 12.2 压缩
- 12.2.1 压缩算法概述
- 12.2.2 Hive表数据进行压缩
- 12.2.3 计算过程中使用压缩
- 12.3 本章总结
- 第13章 MapReduce引擎下的企业级性能调优
- 13.1 测试数据准备
- 13.1.1 订单表(2000万条数据)
- 13.1.2 支付表(600万条数据)
- 13.1.3 商品信息表(100万条数据)
- 13.1.4 省(区、市)信息表(34条数据)
- 13.2 计算资源配置调优
- 13.2.1 YARN资源配置调优
- 13.2.2 MapReduce资源配置调优
- 13.3 使用explain命令查看执行计划
- 13.3.1 基本语法
- 13.3.2 案例实操
- 13.3.3 执行计划分析
- 13.4 分组聚合
- 13.4.1 优化说明
- 13.4.2 优化案例
- 13.5 Join优化
- 13.5.1 Join算法概述
- 13.5.2 Map Join
- 13.5.3 Bucket Map Join
- 13.5.4 Sort Merge Bucket Map Join
- 13.6 数据倾斜
- 13.6.1 数据倾斜概述
- 13.6.2 分组聚合导致的数据倾斜
- 13.6.3 join连接导致的数据倾斜
- 13.7 任务并行度
- 13.7.1 优化说明
- 13.7.2 优化案例
- 13.8 小文件合并
- 13.8.1 优化说明
- 13.8.2 优化案例
- 13.9 其他性能优化手段
- 13.9.1 CBO优化
- 13.9.2 谓词下推
- 13.9.3 矢量化查询
- 13.9.4 Fetch抓取
- 13.9.5 本地模式
- 13.9.6 并行执行
- 13.9.7 严格模式
- 13.10 本章总结
- 第14章 Hive On Tez的企业级性能调优
- 14.1 初识Hive On Tez
- 14.1.1 Tez概述
- 14.1.2 Hive On Tez部署
- 14.2 计算资源配置
- 14.3 执行计划与统计信息
- 14.3.1 执行计划
- 14.3.2 统计信息
- 14.4 任务并行度
- 14.4.1 优化说明
- 14.4.2 Reducer并行度优化案例
- 14.5 分组聚合
- 14.6 Join
- 14.6.1 Join算法
- 14.6.2 Hive On Tez中Join算法的实现
- 14.6.3 Hive On Tez中Join算法的选择策略
- 14.6.4 优化案例
- 14.7 小文件合并
- 14.7.1 优化说明
- 14.7.2 优化案例
- 14.8 数据倾斜
- 14.9 本章总结
- 第15章 Hive On Spark的企业级性能调优
- 15.1 Hive On Spark概述
- 15.1.1 什么是Spark
- 15.1.2 Spark的基本架构
- 15.1.3 Hive On Spark的安装部署
- 15.2 Spark资源配置
- 15.2.1 Excutor配置说明
- 15.2.2 Driver配置说明
- 15.2.3 Spark配置实操
- 15.3 使用explain命令查看执行计划
- 15.4 分组聚合优化
- 15.5 Join优化
- 15.6 数据倾斜优化
- 15.7 计算引擎总结
- 15.8 本章总结
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。