展开全部

主编推荐语

Hive常用知识点及新版本、新特性一网打尽。

内容简介

Hive是大数据领域的一个重要开发工具。本书基于Hive3.1.3版本进行编写,首先,简单介绍了Hive的起源和发展,以及Hive的安装和部署;其次,分别介绍了Hive的数据定义语言、数据操作语言、查询语言,以及各种函数,其中穿插安排了大量的综合案例练习;再次,讲解了分区表和分桶表,以及文件的压缩;最后,重点讲解了Hive在使用不同执行引擎时的企业级性能调优手段。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1章 Hive入门
  • 1.1 什么是Hadoop
  • 1.2 什么是Hive
  • 1.3 Hive的架构
  • 1.4 学前导读
  • 1.4.1 学习的基本要求
  • 1.4.2 环境准备
  • 1.5 本章总结
  • 第2章 Hive的安装部署
  • 2.1 Hive的安装
  • 2.1.1 Hive初体验
  • 2.1.2 MySQL的安装和元数据配置
  • 2.1.3 Hive的服务部署
  • 2.2 Hive的使用技巧
  • 2.2.1 常用交互命令
  • 2.2.2 参数配置方式
  • 2.2.3 常见属性配置
  • 2.3 本章总结
  • 第3章 数据定义语言
  • 3.1 数据库的定义
  • 3.2 表的定义
  • 3.2.1 创建表
  • 3.2.2 表的其他定义语言
  • 3.3 本章总结
  • 第4章 数据操作语言
  • 4.1 数据加载
  • 4.2 数据插入
  • 4.2.1 将查询结果插入表中
  • 4.2.2 将给定values插入表中
  • 4.2.3 将查询结果写入目标路径
  • 4.3 数据的导出和导入
  • 4.4 本章总结
  • 第5章 查询
  • 5.1 数据准备
  • 5.2 基本查询
  • 5.2.1 select子句——全表和特定列查询
  • 5.2.2 列别名
  • 5.2.3 limit子句
  • 5.2.4 order by子句
  • 5.2.5 where子句
  • 5.2.6 关系运算符
  • 5.2.7 逻辑运算符
  • 5.2.8 算术运算符
  • 5.3 分组聚合
  • 5.3.1 聚合函数
  • 5.3.2 group by子句
  • 5.3.3 having子句
  • 5.4 join连接
  • 5.4.1 join连接语法的简介与表别名
  • 5.4.2 数据准备
  • 5.4.3 连接分类
  • 5.4.4 多表连接
  • 5.4.5 笛卡儿积连接
  • 5.4.6 join连接与MapReduce程序
  • 5.4.7 联合(union&union all)
  • 5.5 本章总结
  • 第6章 综合案例练习之基础查询
  • 6.1 环境准备
  • 6.2 简单查询练习
  • 6.3 汇总与分组练习
  • 6.3.1 汇总练习
  • 6.3.2 分组练习
  • 6.3.3 对分组结果进行条件查询
  • 6.3.4 查询结果排序和分组指定条件
  • 6.4 复杂查询练习
  • 6.5 多表查询练习
  • 6.5.1 表连接
  • 6.5.2 多表连接
  • 6.6 本章总结
  • 第7章 初级函数
  • 7.1 函数简介
  • 7.2 单行函数
  • 7.2.1 数值函数
  • 7.2.2 字符串函数
  • 7.2.3 日期函数
  • 7.2.4 流程控制函数
  • 7.2.5 集合函数
  • 7.2.6 案例演示
  • 7.3 高级聚合函数
  • 7.4 本章总结
  • 第8章 综合案例练习之初级函数
  • 8.1 环境准备
  • 8.1.1 用户信息表
  • 8.1.2 商品信息表
  • 8.1.3 商品品类信息表
  • 8.1.4 订单信息表
  • 8.1.5 订单明细表
  • 8.1.6 用户登录明细表
  • 8.1.7 商品价格变更明细表
  • 8.1.8 配送信息表
  • 8.1.9 好友关系表
  • 8.1.10 收藏信息表
  • 8.2 初级函数练习
  • 8.2.1 筛选2021年总销量低于100件的商品
  • 8.2.2 查询每日新增用户数
  • 8.2.3 用户注册、登录、下单综合统计
  • 8.2.4 向用户推荐好友收藏的商品
  • 8.2.5 男性和女性用户每日订单总金额统计
  • 8.2.6 购买过商品1和商品2但没有购买过商品3的用户统计
  • 8.2.7 每日商品1和商品2的销量差值统计
  • 8.2.8 根据商品销售情况进行商品分类
  • 8.2.9 查询有新增用户的日期的新增用户数和新增用户1日留存率
  • 8.2.10 登录次数及交易次数统计
  • 8.2.11 统计每个商品各年度销售总金额
  • 8.2.12 某周内每个商品的每日销售情况
  • 8.2.13 形成同期商品售卖分析表
  • 8.2.14 国庆节期间每个商品的总收藏量和总购买量统计
  • 8.2.15 国庆节期间各品类商品的7日动销率和滞销率
  • 8.3 本章总结
  • 第9章 高级函数
  • 9.1 表生成函数
  • 9.1.1 常用的UDTF
  • 9.1.2 案例演示
  • 9.2 窗口函数
  • 9.2.1 语法讲解
  • 9.2.2 常用窗口函数
  • 9.2.3 案例演示
  • 9.3 用户自定义函数
  • 9.3.1 概述
  • 9.3.2 自定义UDF函数案例
  • 9.4 本章总结
  • 第10章 综合案例练习之高级函数
  • 10.1 高级函数练习题
  • 10.1.1 查询各品类销售商品的种类数及销量最高的商品
  • 10.1.2 查询首次下单后第二日连续下单的用户比率
  • 10.1.3 每件商品销售首年的年份、销售数量和销售总金额
  • 10.1.4 查询所有用户连续登录2日及以上的日期区间
  • 10.1.5 订单金额趋势分析
  • 10.1.6 查询每名用户登录日期的最大空档期
  • 10.1.7 查询同一时间多地登录的用户
  • 10.1.8 销售总金额完成任务指标的商品
  • 10.1.9 各品类中商品价格的中位数
  • 10.1.10 求商品连续售卖的时间区间
  • 10.1.11 根据活跃间隔对用户进行分级的结果统计
  • 10.2 面试真题
  • 10.2.1 同时在线人数问题
  • 10.2.2 会话划分问题
  • 10.2.3 间断连续登录用户问题
  • 10.2.4 日期交叉问题
  • 10.3 本章总结
  • 第11章 分区表和分桶表
  • 11.1 分区表
  • 11.1.1 分区表基本语法
  • 11.1.2 二级分区表
  • 11.1.3 动态分区
  • 11.2 分桶表
  • 11.2.1 分桶表基本语法
  • 11.2.2 分桶排序表
  • 11.3 本章总结
  • 第12章 文件格式和压缩
  • 12.1 文件格式
  • 12.1.1 Text Flile
  • 12.1.2 ORC
  • 12.1.3 Parquet
  • 12.2 压缩
  • 12.2.1 压缩算法概述
  • 12.2.2 Hive表数据进行压缩
  • 12.2.3 计算过程中使用压缩
  • 12.3 本章总结
  • 第13章 MapReduce引擎下的企业级性能调优
  • 13.1 测试数据准备
  • 13.1.1 订单表(2000万条数据)
  • 13.1.2 支付表(600万条数据)
  • 13.1.3 商品信息表(100万条数据)
  • 13.1.4 省(区、市)信息表(34条数据)
  • 13.2 计算资源配置调优
  • 13.2.1 YARN资源配置调优
  • 13.2.2 MapReduce资源配置调优
  • 13.3 使用explain命令查看执行计划
  • 13.3.1 基本语法
  • 13.3.2 案例实操
  • 13.3.3 执行计划分析
  • 13.4 分组聚合
  • 13.4.1 优化说明
  • 13.4.2 优化案例
  • 13.5 Join优化
  • 13.5.1 Join算法概述
  • 13.5.2 Map Join
  • 13.5.3 Bucket Map Join
  • 13.5.4 Sort Merge Bucket Map Join
  • 13.6 数据倾斜
  • 13.6.1 数据倾斜概述
  • 13.6.2 分组聚合导致的数据倾斜
  • 13.6.3 join连接导致的数据倾斜
  • 13.7 任务并行度
  • 13.7.1 优化说明
  • 13.7.2 优化案例
  • 13.8 小文件合并
  • 13.8.1 优化说明
  • 13.8.2 优化案例
  • 13.9 其他性能优化手段
  • 13.9.1 CBO优化
  • 13.9.2 谓词下推
  • 13.9.3 矢量化查询
  • 13.9.4 Fetch抓取
  • 13.9.5 本地模式
  • 13.9.6 并行执行
  • 13.9.7 严格模式
  • 13.10 本章总结
  • 第14章 Hive On Tez的企业级性能调优
  • 14.1 初识Hive On Tez
  • 14.1.1 Tez概述
  • 14.1.2 Hive On Tez部署
  • 14.2 计算资源配置
  • 14.3 执行计划与统计信息
  • 14.3.1 执行计划
  • 14.3.2 统计信息
  • 14.4 任务并行度
  • 14.4.1 优化说明
  • 14.4.2 Reducer并行度优化案例
  • 14.5 分组聚合
  • 14.6 Join
  • 14.6.1 Join算法
  • 14.6.2 Hive On Tez中Join算法的实现
  • 14.6.3 Hive On Tez中Join算法的选择策略
  • 14.6.4 优化案例
  • 14.7 小文件合并
  • 14.7.1 优化说明
  • 14.7.2 优化案例
  • 14.8 数据倾斜
  • 14.9 本章总结
  • 第15章 Hive On Spark的企业级性能调优
  • 15.1 Hive On Spark概述
  • 15.1.1 什么是Spark
  • 15.1.2 Spark的基本架构
  • 15.1.3 Hive On Spark的安装部署
  • 15.2 Spark资源配置
  • 15.2.1 Excutor配置说明
  • 15.2.2 Driver配置说明
  • 15.2.3 Spark配置实操
  • 15.3 使用explain命令查看执行计划
  • 15.4 分组聚合优化
  • 15.5 Join优化
  • 15.6 数据倾斜优化
  • 15.7 计算引擎总结
  • 15.8 本章总结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。