互联网
类型
4.3
豆瓣评分
可以朗读
语音朗读
143千字
字数
2021-05-01
发行日期
展开全部
主编推荐语
本书可以作为大数据开发工程师实用手册,以完整项目案例开发为主线,结合具体技术理论讲解和实际操作,详细讲解了大数据项目开发过程中开发人员应该具备的能力。
内容简介
本书共包含7个章节内容,1至3章主要学习大数据集群搭建,解决大数据项目开发环境和运行环境问题,第4章主要学习HBase数据库和Kafka消息队列,解决了大数据的存储和交换问题,第5、6章主要学习大数据项目离线分析和实时分析,解决了大数据的计算问题,第7章主要学习Web技术开发,解决了大数据可视化问题。
本书主要读者对象为大数据开发工程师、Hadoop工程师、Spark工程师、ETL工程师、大数据分析工程师,并可以作为大数据相关岗位培训的教程。
目录
- 版权信息
- 前言
- 第1章 大数据技术概述
- 1.1 什么是大数据
- 1.2 大数据平台架构
- 1.2.1 数据获取
- 1.2.2 数据存储
- 1.2.3 数据处理
- 1.2.4 交互式分析
- 1.2.5 机器学习与数据挖掘
- 1.2.6 资源管理
- 1.3 大数据工程师的技能树
- 1.3.1 大数据主流开发语言
- 1.3.2 大数据平台的构建
- 1.3.3 大数据采集
- 1.3.4 大数据存储与交换
- 1.3.5 大数据离线计算
- 1.3.6 大数据实时计算
- 1.4 大数据项目需求分析与设计
- 1.4.1 项目需求分析
- 1.4.2 系统架构设计
- 1.4.3 离线和实时计算数据流程设计
- 1.4.4 大数据平台规划
- 1.5 本章小结
- 第2章 搭建IDEA开发环境及Linux虚拟机
- 2.1 搭建IDEA开发环境
- 2.1.1 JDK的安装与配置
- 2.1.2 Maven的安装与配置
- 2.1.3 IDEA的安装与配置
- 2.1.4 使用IDEA构建Maven项目
- 2.2 搭建Linux虚拟机
- 2.2.1 安装Linux系统
- 2.2.2 配置Linux静态IP
- 2.2.3 Linux主机名和IP映射
- 2.2.4 关闭Linux防火墙
- 2.2.5 创建Linux用户和用户组
- 2.2.6 Linux SSH免密登录
- 2.3 本章小结
- 第3章 基于Hadoop构建大数据平台
- 3.1 Zookeeper分布式协调服务
- 3.1.1 Zookeeper架构设计及原理
- 3.1.2 Zookeeper集群安装前的准备工作
- 3.1.3 Zookeeper集群的安装部署
- 3.1.4 Zookeeper shell的操作
- 3.2 HDFS分布式文件系统
- 3.2.1 HDFS架构设计及原理
- 3.2.2 HDFS的高可用(HA)
- 3.2.3 HDFS联邦机制
- 3.3 YARN资源管理系统
- 3.3.1 YARN架构设计及原理
- 3.3.2 MapReduce on YARN工作流程
- 3.3.3 YARN的容错性
- 3.3.4 YARN的高可用(HA)
- 3.3.5 YARN的调度器及使用
- 3.4 Hadoop分布式集群的构建
- 3.4.1 HDFS分布式集群的构建
- 3.4.2 YARN分布式集群的构建
- 3.4.3 Hadoop集群运行测试
- 3.4.4 Hadoop集群调优
- 3.5 MapReduce分布式计算框架
- 3.5.1 MapReduce概述
- 3.5.2 MapReduce编程模型
- 3.5.3 MapReduce应用示例
- 3.5.4 WordCount代码实现
- 3.6 本章小结
- 第4章 基于HBase和Kafka构建海量数据存储与交换系统
- 4.1 构建HBase分布式实时数据库
- 4.1.1 HBase概述
- 4.1.2 HBase架构设计
- 4.1.3 HBase分布式集群的构建
- 4.1.4 HBase性能调优
- 4.1.5 HBase新闻业务表建模
- 4.2 搭建Kafka分布式消息系统
- 4.2.1 Kafka概述
- 4.2.2 Kafka架构设计
- 4.2.3 Kafka分布式集群的构建
- 4.2.4 Kafka集群监控
- 4.3 本章小结
- 第5章 用户行为离线分析——构建日志采集和分析平台
- 5.1 搭建Flume日志采集系统
- 5.1.1 Flume概述
- 5.1.2 Flume架构设计
- 5.1.3 Flume环境的搭建
- 5.1.4 构建Flume集群
- 5.2 使用Flume采集用户行为数据
- 5.2.1 Flume与Kafka集成
- 5.2.2 Flume与HBase集成
- 5.2.3 Flume与Kafka、HBase集成
- 5.3 基于Hive的离线大数据分析
- 5.3.1 Hive概述
- 5.3.2 Hive架构设计
- 5.3.3 Hive的安装部署
- 5.3.4 Hive在大数据仓库中的应用
- 5.3.5 Hive与HBase集成
- 5.4 基于Hive的用户行为数据离线分析
- 5.4.1 离线项目架构设计
- 5.4.2 用户行为离线分析
- 5.5 本章小结
- 第6章 基于Spark的用户行为实时分析
- 6.1 Spark快速入门
- 6.1.1 Spark概述
- 6.1.2 Spark的最简安装
- 6.1.3 Spark实现WordCount
- 6.2 Spark Core的核心功能
- 6.2.1 Spark架构的原理
- 6.2.2 弹性分布式数据集RDD
- 6.2.3 Spark算子
- 6.2.4 Pair RDD及算子
- 6.3 Spark分布式集群的构建
- 6.3.1 Spark的运行模式
- 6.3.2 Standalone模式集群的构建
- 6.3.3 Spark on YARN模式集群的构建
- 6.4 基于Spark Streaming的新闻项目实时分析
- 6.4.1 Spark Streaming概述
- 6.4.2 Spark Streaming的运行原理
- 6.4.3 Spark Streaming编程模型
- 6.4.4 Spark Streaming实时分析用户行为
- 6.5 基于Spark SQL的新闻项目离线分析
- 6.5.1 Spark SQL架构的原理
- 6.5.2 Spark SQL与Hive、MySQL、HBase集成
- 6.5.3 Spark SQL用户行为离线分析
- 6.6 基于Spark Structured Streaming的新闻项目实时分析
- 6.6.1 Structured Streaming概述
- 6.6.2 Structured Streaming编程模型
- 6.6.3 基于Structured Streaming的用户行为实时分析
- 6.7 本章小结
- 第7章 基于Flink的用户行为实时分析
- 7.1 Flink快速入门
- 7.1.1 Flink概述
- 7.1.2 Flink的最简安装
- 7.1.3 Flink实现WordCount
- 7.2 Flink分布式集群的构建
- 7.2.1 Flink的运行模式
- 7.2.2 Flink Standalone模式集群的构建
- 7.2.3 Flink on YARN模式集群的构建
- 7.3 基于Flink DataStream的新闻项目实时分析
- 7.3.1 Flink DataStream概述
- 7.3.2 Flink DataStream编程模型
- 7.3.3 Flink DataStream用户行为实时分析
- 7.4 基于Flink DataSet的新闻项目离线分析
- 7.4.1 Flink DataSet的运行原理
- 7.4.2 Flink DataSet编程模型
- 7.4.3 Flink DataSet用户行为离线分析
- 7.5 本章小结
- 第8章 用户行为数据可视化
- 8.1 构建Java Web系统查询用户行为
- 8.1.1 基于Java Web的系统架构
- 8.1.2 构建并部署Java Web项目
- 8.1.3 用户行为查询代码开发
- 8.2 用户行为数据展示与分析
- 8.2.1 项目打包发布
- 8.2.2 项目整体联调
- 8.2.3 数据大屏展示与用户行为分析
- 8.3 本章小结
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。