互联网
类型
可以朗读
语音朗读
142千字
字数
2022-09-01
发行日期
展开全部
主编推荐语
本书系统介绍Hadoop、Spark两种大数据处理框架。
内容简介
全书共12章,具体包括大数据概述、Hadoop大数据处理架构、HDFS分布式文件系统、MapReduce分布式计算框架、HBase分布式数据库、Spark概述、基于Scala的Spark编程、Windows环境下Spark综合编程、SparkSQL结构化数据处理、SparkStreaming流计算、SparkGraphX图计算、项目实训:《平凡的世界》孙家人物关系图分析。
本书可作为高等院校计算机、信息管理、软件工程、大数据、人工智能等相关专业的大数据课程教材,也可供企业中从事大数据开发的工程师和科技工作者参考。
目录
- 版权信息
- 内容提要
- 前言
- 第1章 Hadoop大数据开发环境
- 1.1 Hadoop概述
- 1.1.1 Hadoop简介
- 1.1.2 Hadoop的优势
- 1.2 在VirtualBox上安装虚拟机
- 1.2.1 Master节点的安装
- 1.2.2 复制虚拟机
- 1.3 Hadoop安装前的准备工作
- 1.3.1 Linux主机的配置
- 1.3.2 安装SSH、配置SSH免密码登录
- 1.3.3 安装Java环境
- 1.4 Hadoop的安装与配置
- 1.4.1 Hadoop的安装
- 1.4.2 Hadoop单机模式的配置
- 1.4.3 Hadoop伪分布式模式的配置
- 1.4.4 Hadoop分布式模式的配置
- 1.5 习题
- 第2章 HDFS大数据分布式存储
- 2.1 HDFS的基本特征
- 2.2 HDFS的存储架构及组件
- 2.2.1 HDFS的存储架构
- 2.2.2 数据块
- 2.2.3 DataNode
- 2.2.4 NameNode
- 2.2.5 SecondaryNameNode
- 2.2.6 心跳消息
- 2.2.7 客户端
- 2.3 HDFS的Shell操作
- 2.3.1 查看命令的使用方法
- 2.3.2 HDFS常用的Shell操作
- 2.3.3 HDFS的管理员命令
- 2.3.4 HDFS的Java API操作
- 2.3.5 HDFS的Web管理界面
- 2.4 案例实战:HDFS编程
- 2.4.1 安装Eclipse
- 2.4.2 在Eclipse中创建项目
- 2.4.3 为项目添加需要用到的JAR包
- 2.4.4 编写Java应用程序
- 2.4.5 编译与运行程序
- 2.4.6 应用程序的部署
- 2.5 习题
- 第3章 MapReduce分布式计算框架
- 3.1 MapReduce概述
- 3.1.1 并发、并行与分布式编程的概念
- 3.1.2 MapReduce并行编程模型
- 3.1.3 Map函数和Reduce函数
- 3.2 MapReduce工作原理
- 3.2.1 MapReduce体系架构
- 3.2.2 MapTask工作原理
- 3.2.3 ReduceTask工作原理
- 3.3 案例实战:MapReduce编程
- 3.3.1 WordCount执行流程示例
- 3.3.2 WordCount具体实现
- 3.3.3 使用Eclipse编译与运行词频统计程序
- 3.4 习题
- 第4章 HBase分布式数据库
- 4.1 HBase概述
- 4.1.1 HBase的技术特点
- 4.1.2 HBase与传统关系数据库的区别
- 4.1.3 HBase与Hadoop中其他组件的关系
- 4.2 HBase系统架构和数据访问流程
- 4.2.1 HBase系统架构
- 4.2.2 HBase数据访问流程
- 4.3 HBase数据表
- 4.3.1 HBase数据表的逻辑视图
- 4.3.2 HBase数据表的物理视图
- 4.3.3 HBase数据表面向列的存储
- 4.3.4 HBase数据表的查询方式
- 4.3.5 HBase表结构的设计
- 4.4 HBase安装
- 4.4.1 下载安装文件
- 4.4.2 配置环境变量
- 4.4.3 添加用户权限
- 4.4.4 查看HBase的版本信息
- 4.5 HBase配置
- 4.5.1 单机模式的配置
- 4.5.2 伪分布式模式的配置
- 4.6 HBase的Shell操作
- 4.6.1 基本操作
- 4.6.2 创建表
- 4.6.3 插入与更新表中的数据
- 4.6.4 查询表中的数据
- 4.6.5 删除表中的数据
- 4.6.6 表的启用/禁用
- 4.6.7 修改表结构
- 4.6.8 删除HBase表
- 4.7 HBase的Java API操作
- 4.7.1 HBase数据库管理API
- 4.7.2 HBase数据库表API
- 4.7.3 HBase数据库表的行/列API
- 4.8 案例实战:HBase编程
- 4.8.1 在Eclipse中创建项目
- 4.8.2 添加项目需要用到的JAR包
- 4.8.3 编写Java应用程序
- 4.8.4 编译与运行程序
- 4.9 习题
- 第5章 Scala基础编程
- 5.1 Scala概述
- 5.1.1 Scala特性
- 5.1.2 在Windows环境下安装Scala
- 5.2 Scala基础语法
- 5.2.1 声明常量和变量
- 5.2.2 输出值的方式
- 5.2.3 数据类型
- 5.2.4 运算符
- 5.3 Scala控制结构
- 5.3.1 条件表达式
- 5.3.2 if...else选择结构
- 5.3.3 编写和运行Scala脚本
- 5.3.4 循环结构
- 5.4 数组
- 5.4.1 定长数组
- 5.4.2 变长数组
- 5.4.3 遍历数组
- 5.4.4 数组转换
- 5.4.5 数组对象的操作方法
- 5.5 列表
- 5.5.1 不可变列表
- 5.5.2 可变列表
- 5.6 集合
- 5.6.1 不可变集合
- 5.6.2 可变集合
- 5.7 元组
- 5.7.1 元组的常用操作
- 5.7.2 拉链操作
- 5.8 映射
- 5.8.1 不可变映射
- 5.8.2 可变映射
- 5.9 Scala函数
- 5.9.1 函数的定义
- 5.9.2 匿名函数
- 5.9.3 高阶函数
- 5.10 Scala模式匹配
- 5.11 Scala面向对象编程
- 5.11.1 类与对象
- 5.11.2 单例对象和伴生对象
- 5.12 Scala读写文件
- 5.12.1 读文件
- 5.12.2 写文件
- 5.13 习题
- 第6章 Spark大数据处理框架
- 6.1 Spark概述
- 6.1.1 Spark的产生背景
- 6.1.2 Spark的优点
- 6.1.3 Spark的应用场景
- 6.1.4 Spark的生态系统
- 6.2 Spark的运行机制
- 6.2.1 Spark的基本概念
- 6.2.2 Spark的运行架构
- 6.3 Spark的安装及配置
- 6.3.1 Spark的基础环境
- 6.3.2 下载安装文件
- 6.3.3 单机模式的配置
- 6.3.4 伪分布式模式的配置
- 6.4 使用Spark Shell编写Scala代码
- 6.4.1 启动Spark Shell
- 6.4.2 退出Spark Shell
- 6.5 使用PySpark Shell编写Python代码
- 6.6 习题
- 第7章 Spark RDD编程
- 7.1 创建RDD的方式
- 7.1.1 使用程序中的数据集创建RDD
- 7.1.2 使用文本文件创建RDD
- 7.1.3 使用JSON文件创建RDD
- 7.1.4 使用CSV文件创建RDD
- 7.2 RDD的操作方法
- 7.2.1 转换操作
- 7.2.2 行动操作
- 7.3 RDD之间的依赖关系
- 7.3.1 窄依赖
- 7.3.2 宽依赖
- 7.4 RDD的持久化
- 7.5 案例实战:Spark RDD实现词频统计
- 7.5.1 安装sbt
- 7.5.2 编写词频统计的Scala应用程序
- 7.5.3 用sbt打包Scala应用程序
- 7.5.4 通过spark-submit运行程序
- 7.6 Spark读写HBase数据
- 7.6.1 读HBase的数据
- 7.6.2 向HBase写数据
- 7.7 习题
- 第8章 Windows环境下Spark综合编程
- 8.1 Windows环境下Spark与Hadoop的安装
- 8.1.1 Windows环境下Spark的安装
- 8.1.2 Windows环境下Hadoop的安装
- 8.2 用IntelliJ IDEA搭建Spark开发环境
- 8.2.1 下载与安装IntelliJ IDEA
- 8.2.2 Scala插件的安装与使用
- 8.2.3 配置全局的JDK和SDK
- 8.2.4 Maven的安装与项目开发
- 8.2.5 开发本地Spark应用
- 8.3 案例实战:Spark RDD学生考试成绩分析
- 8.4 习题
- 第9章 Spark SQL结构化数据处理
- 9.1 Spark SQL概述
- 9.1.1 Spark SQL简介
- 9.1.2 DataFrame与Dataset
- 9.2 创建DataFrame对象的方式
- 9.2.1 使用Parquet文件创建DataFrame对象
- 9.2.2 使用JSON文件创建DataFrame对象
- 9.2.3 使用RDD创建DataFrame对象
- 9.2.4 使用SparkSession方式创建DataFrame对象
- 9.2.5 使用Seq创建DataFrame对象
- 9.3 将DataFrame对象保存为不同格式的文件
- 9.3.1 通过write.×××()方法保存DataFrame对象
- 9.3.2 通过write.format()方法保存DataFrame对象
- 9.3.3 先将DataFrame对象转化成RDD再保存到文件中
- 9.4 DataFrame对象的常用操作
- 9.4.1 展示数据
- 9.4.2 筛选
- 9.4.3 排序
- 9.4.4 汇总与聚合
- 9.4.5 统计
- 9.4.6 合并
- 9.4.7 连接
- 9.5 创建Dataset对象
- 9.6 案例实战:瓜子二手车数据分析
- 9.6.1 设置程序入口并读取数据
- 9.6.2 数据清洗
- 9.6.3 折扣率分析
- 9.6.4 数据统计
- 9.7 习题
- 第10章 Spark Streaming流计算
- 10.1 流计算概述
- 10.1.1 流数据概述
- 10.1.2 批处理与流处理
- 10.2 Spark Streaming工作原理
- 10.3 Spark Streaming编程模型
- 10.3.1 编写Spark Streaming程序的步骤
- 10.3.2 创建StreamingContext对象
- 10.4 创建DStream对象
- 10.4.1 创建输入源为文件流的DStream对象
- 10.4.2 定义DStream的数据源为套接字流
- 10.4.3 定义DStream的数据源为RDD队列流
- 10.5 DStream操作
- 10.5.1 DStream无状态转换操作
- 10.5.2 DStream有状态转换操作
- 10.5.3 DStream输出操作
- 10.6 案例实战:实时统计文件流的词频
- 10.7 习题
- 第11章 Spark GraphX图计算
- 11.1 GraphX图计算概述
- 11.1.1 图结构
- 11.1.2 图计算的典型应用
- 11.1.3 GraphX简介
- 11.2 GraphX图计算模型
- 11.2.1 属性图
- 11.2.2 GraphX图存储模式
- 11.2.3 GraphX图计算原理
- 11.3 GraphX属性图的创建
- 11.3.1 使用顶点RDD和边RDD创建属性图
- 11.3.2 使用边集合的RDD创建属性图
- 11.3.3 使用边的两个顶点的ID所组成的二元组RDD创建属性图
- 11.4 属性图操作
- 11.4.1 图的属性操作
- 11.4.2 图的视图操作
- 11.4.3 图的缓存操作
- 11.4.4 图的顶点和边的属性变换
- 11.4.5 图的连接操作
- 11.4.6 图的结构操作
- 11.5 习题
- 第12章 项目实训:《平凡的世界》中部分人物关系图分析
- 12.1 需求分析
- 12.1.1 《平凡的世界》概述
- 12.1.2 《平凡的世界》中部分人物关系图可视化
- 12.1.3 需求分析
- 12.2 《平凡的世界》中部分人物关系图分析
- 12.2.1 功能实现
- 12.2.2 人物关系图分析结果
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。