展开全部

主编推荐语

本书可以作为大数据开发工程师实用手册,以完整项目案例开发为主线,结合具体技术理论讲解和实际操作,详细讲解了大数据项目开发过程中开发人员应该具备的能力。

内容简介

本书共包含7个章节内容,1至3章主要学习大数据集群搭建,解决大数据项目开发环境和运行环境问题,第4章主要学习HBase数据库和Kafka消息队列,解决了大数据的存储和交换问题,第5、6章主要学习大数据项目离线分析和实时分析,解决了大数据的计算问题,第7章主要学习Web技术开发,解决了大数据可视化问题。

本书主要读者对象为大数据开发工程师、Hadoop工程师、Spark工程师、ETL工程师、大数据分析工程师,并可以作为大数据相关岗位培训的教程。

目录

  • 版权信息
  • 前言
  • 第1章 大数据技术概述
  • 1.1 什么是大数据
  • 1.2 大数据平台架构
  • 1.2.1 数据获取
  • 1.2.2 数据存储
  • 1.2.3 数据处理
  • 1.2.4 交互式分析
  • 1.2.5 机器学习与数据挖掘
  • 1.2.6 资源管理
  • 1.3 大数据工程师的技能树
  • 1.3.1 大数据主流开发语言
  • 1.3.2 大数据平台的构建
  • 1.3.3 大数据采集
  • 1.3.4 大数据存储与交换
  • 1.3.5 大数据离线计算
  • 1.3.6 大数据实时计算
  • 1.4 大数据项目需求分析与设计
  • 1.4.1 项目需求分析
  • 1.4.2 系统架构设计
  • 1.4.3 离线和实时计算数据流程设计
  • 1.4.4 大数据平台规划
  • 1.5 本章小结
  • 第2章 搭建IDEA开发环境及Linux虚拟机
  • 2.1 搭建IDEA开发环境
  • 2.1.1 JDK的安装与配置
  • 2.1.2 Maven的安装与配置
  • 2.1.3 IDEA的安装与配置
  • 2.1.4 使用IDEA构建Maven项目
  • 2.2 搭建Linux虚拟机
  • 2.2.1 安装Linux系统
  • 2.2.2 配置Linux静态IP
  • 2.2.3 Linux主机名和IP映射
  • 2.2.4 关闭Linux防火墙
  • 2.2.5 创建Linux用户和用户组
  • 2.2.6 Linux SSH免密登录
  • 2.3 本章小结
  • 第3章 基于Hadoop构建大数据平台
  • 3.1 Zookeeper分布式协调服务
  • 3.1.1 Zookeeper架构设计及原理
  • 3.1.2 Zookeeper集群安装前的准备工作
  • 3.1.3 Zookeeper集群的安装部署
  • 3.1.4 Zookeeper shell的操作
  • 3.2 HDFS分布式文件系统
  • 3.2.1 HDFS架构设计及原理
  • 3.2.2 HDFS的高可用(HA)
  • 3.2.3 HDFS联邦机制
  • 3.3 YARN资源管理系统
  • 3.3.1 YARN架构设计及原理
  • 3.3.2 MapReduce on YARN工作流程
  • 3.3.3 YARN的容错性
  • 3.3.4 YARN的高可用(HA)
  • 3.3.5 YARN的调度器及使用
  • 3.4 Hadoop分布式集群的构建
  • 3.4.1 HDFS分布式集群的构建
  • 3.4.2 YARN分布式集群的构建
  • 3.4.3 Hadoop集群运行测试
  • 3.4.4 Hadoop集群调优
  • 3.5 MapReduce分布式计算框架
  • 3.5.1 MapReduce概述
  • 3.5.2 MapReduce编程模型
  • 3.5.3 MapReduce应用示例
  • 3.5.4 WordCount代码实现
  • 3.6 本章小结
  • 第4章 基于HBase和Kafka构建海量数据存储与交换系统
  • 4.1 构建HBase分布式实时数据库
  • 4.1.1 HBase概述
  • 4.1.2 HBase架构设计
  • 4.1.3 HBase分布式集群的构建
  • 4.1.4 HBase性能调优
  • 4.1.5 HBase新闻业务表建模
  • 4.2 搭建Kafka分布式消息系统
  • 4.2.1 Kafka概述
  • 4.2.2 Kafka架构设计
  • 4.2.3 Kafka分布式集群的构建
  • 4.2.4 Kafka集群监控
  • 4.3 本章小结
  • 第5章 用户行为离线分析——构建日志采集和分析平台
  • 5.1 搭建Flume日志采集系统
  • 5.1.1 Flume概述
  • 5.1.2 Flume架构设计
  • 5.1.3 Flume环境的搭建
  • 5.1.4 构建Flume集群
  • 5.2 使用Flume采集用户行为数据
  • 5.2.1 Flume与Kafka集成
  • 5.2.2 Flume与HBase集成
  • 5.2.3 Flume与Kafka、HBase集成
  • 5.3 基于Hive的离线大数据分析
  • 5.3.1 Hive概述
  • 5.3.2 Hive架构设计
  • 5.3.3 Hive的安装部署
  • 5.3.4 Hive在大数据仓库中的应用
  • 5.3.5 Hive与HBase集成
  • 5.4 基于Hive的用户行为数据离线分析
  • 5.4.1 离线项目架构设计
  • 5.4.2 用户行为离线分析
  • 5.5 本章小结
  • 第6章 基于Spark的用户行为实时分析
  • 6.1 Spark快速入门
  • 6.1.1 Spark概述
  • 6.1.2 Spark的最简安装
  • 6.1.3 Spark实现WordCount
  • 6.2 Spark Core的核心功能
  • 6.2.1 Spark架构的原理
  • 6.2.2 弹性分布式数据集RDD
  • 6.2.3 Spark算子
  • 6.2.4 Pair RDD及算子
  • 6.3 Spark分布式集群的构建
  • 6.3.1 Spark的运行模式
  • 6.3.2 Standalone模式集群的构建
  • 6.3.3 Spark on YARN模式集群的构建
  • 6.4 基于Spark Streaming的新闻项目实时分析
  • 6.4.1 Spark Streaming概述
  • 6.4.2 Spark Streaming的运行原理
  • 6.4.3 Spark Streaming编程模型
  • 6.4.4 Spark Streaming实时分析用户行为
  • 6.5 基于Spark SQL的新闻项目离线分析
  • 6.5.1 Spark SQL架构的原理
  • 6.5.2 Spark SQL与Hive、MySQL、HBase集成
  • 6.5.3 Spark SQL用户行为离线分析
  • 6.6 基于Spark Structured Streaming的新闻项目实时分析
  • 6.6.1 Structured Streaming概述
  • 6.6.2 Structured Streaming编程模型
  • 6.6.3 基于Structured Streaming的用户行为实时分析
  • 6.7 本章小结
  • 第7章 基于Flink的用户行为实时分析
  • 7.1 Flink快速入门
  • 7.1.1 Flink概述
  • 7.1.2 Flink的最简安装
  • 7.1.3 Flink实现WordCount
  • 7.2 Flink分布式集群的构建
  • 7.2.1 Flink的运行模式
  • 7.2.2 Flink Standalone模式集群的构建
  • 7.2.3 Flink on YARN模式集群的构建
  • 7.3 基于Flink DataStream的新闻项目实时分析
  • 7.3.1 Flink DataStream概述
  • 7.3.2 Flink DataStream编程模型
  • 7.3.3 Flink DataStream用户行为实时分析
  • 7.4 基于Flink DataSet的新闻项目离线分析
  • 7.4.1 Flink DataSet的运行原理
  • 7.4.2 Flink DataSet编程模型
  • 7.4.3 Flink DataSet用户行为离线分析
  • 7.5 本章小结
  • 第8章 用户行为数据可视化
  • 8.1 构建Java Web系统查询用户行为
  • 8.1.1 基于Java Web的系统架构
  • 8.1.2 构建并部署Java Web项目
  • 8.1.3 用户行为查询代码开发
  • 8.2 用户行为数据展示与分析
  • 8.2.1 项目打包发布
  • 8.2.2 项目整体联调
  • 8.2.3 数据大屏展示与用户行为分析
  • 8.3 本章小结
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    5.0

    本书详细介绍了大数据工程师在实际工作中应该熟练掌握的大数据技术。全书共 8 章,分别是大数据技术概述、搭建 IDEA 开发环境及 Linux 虚拟机、基于 Hadoop 构建大数据平台、基于 HBase Kafka 构建海量数据存储与交换系统、用户行为离线分析 — 构建日志采集和分析平台、基于 Spark 的用户行为实时分析、基于 Flink 的用户行为实时分析、用户行为数据可视化。

      转发
      评论

    出版方

    机械工业出版社

    机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。