展开全部

主编推荐语

助你有效提高大数据技术的实际应用能力。

内容简介

大数据技术作为处理海量数据的关键工具,在数据分析、数据计算、资源管理等领域得到广泛应用。

本书从初学者的角度出发,全面系统地介绍了Python大数据分析、数据存储、离线计算与实时计算等基本概念与方法,并以大量案例帮助读者理解大数据技术的方方面面。此外,本书还介绍了Kafka、图数据处理、OLAP数据分析、分布式资源管理和大数据处理架构等知识,以帮助读者快速熟悉大数据技术,并应用大数据技术解决现实生活中的问题。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 资源与支持
  • 第1章 大数据概述
  • 1.1 基本概念
  • 1.1.1 5V特征
  • 1.1.2 数据类型
  • 1.1.3 大数据平台
  • 1.1.4 大数据的处理流程
  • 1.2 相关技术
  • 1.2.1 数据采集
  • 1.2.2 数据预处理
  • 1.2.3 数据存储
  • 1.2.4 数据挖掘与数据分析
  • 1.2.5 数据可视化
  • 1.3 应用领域
  • 1.4 课后习题
  • 第2章 Python大数据分析
  • 2.1 Python介绍
  • 2.1.1 Python的应用场景
  • 2.1.2 Python的优点与缺点
  • 2.2 NumPy介绍
  • 2.2.1 NumPy的应用场景
  • 2.2.2 NumPy的数组对象与用法
  • 2.3 pandas介绍
  • 2.3.1 pandas的应用场景
  • 2.3.2 pandas的数据结构与用法
  • 2.4 Matplotlib介绍
  • 2.4.1 Matplotlib库的应用场景
  • 2.4.2 图表绘制
  • 2.5 实践操作
  • 2.6 小结
  • 2.7 课后习题
  • 第3章 Kafka
  • 3.1 Kafka介绍
  • 3.1.1 Kafka的基本架构
  • 3.1.2 Kafka的作用
  • 3.2 Kafka的重要特性
  • 3.2.1 高吞吐
  • 3.2.2 高可用
  • 3.3 安装与配置
  • 3.3.1 ZooKeeper的安装与配置
  • 3.3.2 Kafka的安装与配置
  • 3.4 实践操作
  • 3.5 小结
  • 3.6 课后习题
  • 第4章 数据存储
  • 4.1 HDFS
  • 4.1.1 Hadoop介绍
  • 4.1.2 HDFS介绍
  • 4.1.3 安装与配置
  • 4.1.4 实践操作
  • 4.1.5 小结
  • 4.1.6 课后习题
  • 4.2 HBase
  • 4.2.1 HBase介绍
  • 4.2.2 技术对比
  • 4.2.3 安装与配置
  • 4.2.4 实践操作
  • 4.2.5 小结
  • 4.2.6 课后习题
  • 4.3 Redis
  • 4.3.1 Redis介绍
  • 4.3.2 安装与配置
  • 4.3.3 实践操作
  • 4.3.4 小结
  • 4.3.5 课后习题
  • 第5章 图数据处理
  • 5.1 Neo4j
  • 5.1.1 Neo4j介绍
  • 5.1.2 安装与配置
  • 5.1.3 实践操作
  • 5.1.4 小结
  • 5.1.5 课后习题
  • 5.2 Spark GraphX
  • 5.2.1 图计算基础知识
  • 5.2.2 Spark GraphX介绍
  • 5.2.3 实践操作
  • 5.2.4 小结
  • 5.2.5 课后习题
  • 第6章 离线计算
  • 6.1 MapReduce
  • 6.1.1 MapReduce介绍
  • 6.1.2 安装与配置
  • 6.1.3 实践操作
  • 6.1.4 小结
  • 6.1.5 课后习题
  • 6.2 Spark
  • 6.2.1 Spark介绍
  • 6.2.2 RDD
  • 6.2.3 安装与配置
  • 6.2.4 实践操作
  • 6.2.5 小结
  • 6.2.6 课后习题
  • 第7章 实时计算
  • 7.1 Storm
  • 7.1.1 流计算介绍
  • 7.1.2 Storm介绍
  • 7.1.3 实践操作
  • 7.1.4 小结
  • 7.1.5 课后习题
  • 7.2 Spark Streaming
  • 7.2.1 Spark Streaming介绍
  • 7.2.2 DStream操作
  • 7.2.3 实践操作
  • 7.2.4 小结
  • 7.2.5 课后习题
  • 7.3 Flink
  • 7.3.1 Flink介绍
  • 7.3.2 技术对比
  • 7.3.3 实践操作
  • 7.3.4 小结
  • 7.3.5 课后习题
  • 第8章 OLAP数据分析
  • 8.1 Pig
  • 8.1.1 Pig介绍
  • 8.1.2 Pig Latin语言介绍
  • 8.1.3 Pig的安装与配置
  • 8.1.4 实践操作
  • 8.1.5 小结
  • 8.1.6 课后习题
  • 8.2 Hive
  • 8.2.1 数据仓库介绍
  • 8.2.2 Hive介绍
  • 8.2.3 技术对比
  • 8.2.4 安装与配置
  • 8.2.5 实践操作
  • 8.2.6 小结
  • 8.2.7 课后习题
  • 8.3 Spark SQL
  • 8.3.1 Spark SQL介绍
  • 8.3.2 实践操作
  • 8.3.3 小结
  • 8.3.4 课后习题
  • 第9章 分布式资源管理
  • 9.1 YARN介绍
  • 9.1.1 YARN的基本架构
  • 9.1.2 YARN组件功能
  • 9.1.3 YARN的执行过程
  • 9.2 实践操作
  • 9.3 小结
  • 9.4 课后习题
  • 第10章 大数据处理架构
  • 10.1 Lambda架构介绍
  • 10.1.1 Lambda的基本结构
  • 10.1.2 优势与不足
  • 10.2 Kappa架构介绍
  • 10.2.1 Kappa的基本结构
  • 10.2.2 优势与不足
  • 10.3 架构对比
  • 10.4 小结
  • 10.5 课后习题
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。