互联网
类型
可以朗读
语音朗读
94千字
字数
2023-01-01
发行日期
展开全部
主编推荐语
分布式系统开发与应用,适合技术人员与学生阅读。
内容简介
本书从大数据技术基础概念出发,介绍了大数据分析的流程和大数据分析处理系统的组成,以及大数据集群的搭建,并在此基础上讲解了多种不同技术构成的离线/实时数据分析系统实战项目。
全书共10章,包括大数据概述、大数据分析的基本流程与工具、分布式大数据分析处理系统概述、构建大数据集群环境、构建基于LayUI的集群管理系统、基于HBase的大数据离线分析系统、基于Hive+Hadoop+Spark的大数据离线分析系统、基于MySQL+Spark的大数据离线分析系统、基于Redis+Kafka+Spark的大数据实时分析系统、基于Flume+Kafka+Flink的大数据实时分析系统。
目录
- 版权信息
- 前言
- 第1章 大数据概述
- 1.1 大数据的基本概念
- 1.1.1 何谓大数据
- 1.1.2 大数据的产生阶段
- 1.1.3 大数据的核心技术和计算模式
- 1.2 大数据的应用
- 1.2.1 大数据的应用场景
- 1.2.2 大数据系统的作用
- 1.3 大数据技术生态圈
- 1.3.1 Linux操作系统
- 1.3.2 Hadoop生态系统
- 1.3.3 Spark对Hadoop的完善
- 1.4 大数据技术的新发展
- 1.4.1 Hadoop 3.0的新特性
- 1.4.2 大数据引擎Flink
- 1.4.3 智能化大数据分析处理
- 本章小结
- 第2章 大数据分析的基本流程与工具
- 2.1 数据采集
- 2.1.1 网络爬虫采集数据
- 2.1.2 使用Excel爬取数据
- 2.2 数据存储
- 2.2.1 关系型数据的存储——基于MySQL
- 2.2.2 非关系型数据的存储——基于Redis、HBase
- 2.3 数据分析与数据处理
- 2.3.1 数据分析常用工具——pandas
- 2.3.2 分布式计算框架
- 2.3.3 分布式数据挖掘和深度学习
- 2.4 数据可视化
- 2.4.1 Python数据可视化库Matplotlib
- 2.4.2 Python数据可视化库pyecharts
- 2.4.3 数据可视化图表库ECharts
- 2.4.4 数据可视化工具Apache Superset
- 本章小结
- 第3章 分布式大数据分析处理系统概述
- 3.1 什么是分布式大数据分析处理系统
- 3.2 分布式大数据分析处理系统的作用
- 3.3 分布式大数据分析处理系统的应用场景
- 3.4 分布式大数据分析处理系统的构成
- 3.4.1 数据采集子系统
- 3.4.2 数据存储系统
- 3.4.3 数据分析处理系统
- 3.4.4 数据可视化系统
- 3.5 分布式大数据分析处理系统的实现
- 3.5.1 系统前端——HTML、CSS、jQuery
- 3.5.2 系统后端——SpringBoot、SSM
- 3.5.3 Web服务器端——Tomcat
- 本章小结
- 第4章 构建大数据集群环境
- 4.1 部署大数据处理环境
- 4.1.1 搭建Hadoop集群
- 4.1.2 ZooKeeper的安装部署
- 4.1.3 Kafka的安装部署
- 4.1.4 Spark集群搭建
- 4.2 部署大数据存储环境
- 4.2.1 MySQL的安装部署
- 4.2.2 Hive的安装部署
- 4.2.3 HBase的安装部署
- 4.2.4 Redis的安装部署
- 本章小结
- 第5章 构建基于LayUI的集群管理系统
- 5.1 集群管理系统概述
- 5.1.1 需求分析
- 5.1.2 系统架构——系统+集群+UI
- 5.2 系统开发的前期准备操作
- 5.2.1 本机环境配置
- 5.2.2 集群环境配置
- 5.2.3 构建项目工程结构
- 5.3 系统的代码实现
- 5.3.1 Controller层实现
- 5.3.2 构造系统所需工具包
- 5.3.3 核心类实现
- 5.4 构造系统UI界面——基于LayUI
- 本章小结
- 第6章 基于HBase的大数据离线分析系统
- 6.1 系统架构概述
- 6.1.1 需求分析
- 6.1.2 系统架构——HBase+SpringBoot+ECharts
- 6.2 采集股份转让数据
- 6.2.1 使用爬虫抓取数据
- 6.2.2 数据采集模块测试
- 6.3 数据存储和处理模块实现
- 6.3.1 数据库设计
- 6.3.2 使用HBase存储并处理数据
- 6.3.3 数据存储和处理模块测试
- 6.4 数据可视化模块实现
- 6.4.1 数据可视化模块后端设计——基于SpringBoot
- 6.4.2 数据可视化模块前端设计——基于ECharts
- 6.4.3 数据可视化页面展示
- 本章小结
- 第7章 基于Hive+Hadoop+Spark的大数据离线分析系统
- 7.1 系统架构概述
- 7.1.1 需求分析
- 7.1.2 数据存储——Hive+Hadoop
- 7.1.3 数据处理与可视化——Spark+SSM+ECharts
- 7.2 采集旅游相关数据
- 7.2.1 使用爬虫采集城市、景点数据
- 7.2.2 数据采集模块测试
- 7.3 数据存储模块实现
- 7.3.1 数据库设计
- 7.3.2 使用HDFS和Hive存储数据
- 7.3.3 数据存储模块测试
- 7.4 数据分析处理模块实现
- 7.4.1 Spark处理数据
- 7.4.2 分词处理和情感分析——基于jieba+SnowNLP库
- 7.4.3 数据分析处理模块测试
- 7.5 数据可视化模块实现
- 7.5.1 数据可视化模块后端设计——基于SSM
- 7.5.2 数据可视化模块前端设计——基于ECharts
- 7.5.3 数据可视化页面展示
- 本章小结
- 第8章 基于MySQL+Spark的大数据离线分析系统
- 8.1 系统架构概述
- 8.1.1 需求分析
- 8.1.2 数据存储——MySQL
- 8.1.3 数据处理与可视化——Spark Streaming+Apache Superset
- 8.2 采集电商数据
- 8.2.1 使用爬虫爬取商品信息
- 8.2.2 数据采集模块测试
- 8.3 数据分析处理模块实现
- 8.3.1 数据库设计
- 8.3.2 Spark处理商品数据
- 8.3.3 数据分析处理模块测试
- 8.4 数据可视化模块实现
- 8.4.1 使用Apache Superset绘制数据可视化图表
- 8.4.2 数据可视化页面展示
- 本章小结
- 第9章 基于Redis+Kafka+Spark的大数据实时分析系统
- 9.1 系统架构概述
- 9.1.1 需求分析
- 9.1.2 数据存储——Redis
- 9.1.3 数据处理与可视化——Kafka+Spark Streaming+SSM+ECharts
- 9.2 采集汽车网站数据
- 9.2.1 使用爬虫获取汽车和用户数据
- 9.2.2 数据采集模块测试
- 9.3 数据存储模块实现
- 9.3.1 数据库设计
- 9.3.2 使用MySQL存储汽车数据
- 9.3.3 数据存储模块测试
- 9.4 数据分析处理模块实现
- 9.4.1 实时发送数据至Kafka
- 9.4.2 Spark处理汽车数据
- 9.4.3 Redis数据库存储处理结果
- 9.4.4 数据分析处理模块测试
- 9.5 数据可视化模块
- 9.5.1 数据可视化模块后端设计——基于SSM
- 9.5.2 数据可视化模块前端设计——基于ECharts
- 9.5.3 数据可视化页面展示
- 本章小结
- 第10章 基于Flume+Kafka+Flink的大数据实时分析系统
- 10.1 系统架构概述
- 10.1.1 需求分析
- 10.1.2 数据存储——MySQL
- 10.1.3 数据处理与可视化——Kafka+Flink+SpringBoot+ECharts
- 10.2 采集直播审计数据
- 10.2.1 模拟直播审计数据
- 10.2.2 使用Flume采集直播审计数据
- 10.2.3 数据采集模块测试
- 10.3 数据分析处理模块实现
- 10.3.1 实时发送数据至Kafka
- 10.3.2 Flink处理直播审计数据
- 10.3.3 MySQL数据库存储处理结果
- 10.3.4 数据分析处理模块测试
- 10.4 数据可视化模块
- 10.4.1 数据可视化模块后端设计——基于SpringBoot
- 10.4.2 数据可视化模块前端设计——基于ECharts
- 10.4.3 数据可视化页面展示
- 本章小结
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。