展开全部

主编推荐语

书中有大量的图片说明和实例讲解,书中的典型应用案例部分涵盖了数据采集、数据分析、数据转换等。

内容简介

本书共分为12章,第1章介绍了大数据产生的背景、大数据的结构与特征、大数据相关概念、大数据可视化、大数据相关工具与发展前景。第2-9章为基础知识部分,介绍了大数据的生态系统全貌,重点对计算平台Hadoop、分布式文件系统HDFS、计算框架MapReduce、开源数据库HBase、典型工具NoSQL、集群计算Spark、流计算Storm和分布式协调系统Zookeeper等相关技术进行了详细介绍,通过实例使读者具备解决实际问题的能力。第10-12章为典型应用案例部分,介绍了大数据分析应用系统的开发过程,涵盖了数据采集、数据分析、数据转换和结果显示的整个交互式大数据处理和分析流程。

本书内容丰富、条理清晰、示例指导性强,读者可以通过章后的习题对所学内容作进一步巩固,熟练掌握大数据基本原理、工程应用场景及实验分析技巧。本书适合作为大中专院校数据科学与大数据专业、计算机类专业的教材,也可以作为读者自学或者科研技术人员的参考书。

目录

  • 版权信息
  • 前言
  • 第1章 初识大数据
  • 1.1 大数据产生的背景
  • 1.2 大数据的结构与特征
  • 1.2.1 大数据的结构
  • 1.2.2 大数据的特征
  • 1.3 大数据相关概念
  • 1.3.1 大数据关键技术
  • 1.3.2 数据类型与数据管理
  • 1.3.3 数据仓库
  • 1.3.4 数据挖掘
  • 1.4 大数据可视化
  • 1.4.1 什么是数据可视化
  • 1.4.2 数据可视化的工具与方法
  • 1.4.3 数据可视化的建模
  • 1.4.4 数据可视化分类
  • 1.5 大数据相关工具
  • 1.5.1 Hadoop
  • 1.5.2 R语言
  • 1.5.3 Python语言
  • 1.5.4 RapidMiner
  • 1.5.5 Tableau
  • 1.6 大数据时代的新机遇
  • 1.6.1 数据价值
  • 1.6.2 应用价值
  • 1.6.3 发展前景
  • 1.7 本章小结
  • 1.8 习题
  • 第2章 大数据处理架构Hadoop
  • 2.1 Hadoop简介
  • 2.2 Hadoop发展史及特点
  • 2.3 Hadoop体系结构
  • 2.3.1 HDFS体系结构
  • 2.3.2 MapReduce体系结构
  • 2.4 配置Linux环境
  • 2.4.1 安装VMware12虚拟机
  • 2.4.2 部署CentOS 64位操作系统
  • 2.4.3 配置网络
  • 2.4.4 Linux终端
  • 2.5 Hadoop环境搭建
  • 2.5.1 JDK安装和测试
  • 2.5.2 Hadoop安装和配置
  • 2.5.3 SSH免密码配置
  • 2.6 Hadoop关键组件
  • 2.6.1 HDFS
  • 2.6.2 HBase
  • 2.6.3 MapReduce
  • 2.6.4 Hive
  • 2.6.5 Pig
  • 2.6.6 Mahout
  • 2.6.7 ZooKeeper
  • 2.6.8 Flume
  • 2.6.9 Sqoop
  • 2.6.10 Ambari
  • 2.7 本章小结
  • 2.8 习题
  • 第3章 分布式文件系统HDFS
  • 3.1 HDFS概念
  • 3.1.1 HDFS简介
  • 3.1.2 HDFS相关概念
  • 3.2 HDFS体系结构
  • 3.3 HDFS文件存储机制
  • 3.4 HDFS的数据读写过程
  • 3.4.1 读数据的过程
  • 3.4.2 写数据的过程
  • 3.5 HDFS应用实践
  • 3.5.1 HDFS常用命令
  • 3.5.2 HDFS的Web界面
  • 3.5.3 HDFS常用Java API及应用实例
  • 3.6 本章小结
  • 3.7 习题
  • 第4章 计算系统MapReduce
  • 4.1 MapReduce概述
  • 4.1.1 MapReduce简介
  • 4.1.2 MapReduce数据类型与格式
  • 4.1.3 数据类型Writable接口
  • 4.1.4 Hadoop序列化与反序列化机制
  • 4.2 MapReduce架构
  • 4.2.1 数据分片
  • 4.2.2 MapReduce的集群行为
  • 4.2.3 MapReduce作业执行过程
  • 4.3 MapReduce接口类
  • 4.3.1 MapReduce输入的处理类
  • 4.3.2 MapReduce输出的处理类
  • 4.4 MapReduce应用案例
  • 4.4.1 WordCount代码分析
  • 4.4.2 WordCount处理过程
  • 4.5 本章小结
  • 4.6 习题
  • 第5章 分布式数据库HBase
  • 5.1 初识HBase
  • 5.1.1 HBase的来源
  • 5.1.2 HBase的特点
  • 5.1.3 HBase的系统架构
  • 5.2 HBase安装与配置
  • 5.2.1 HBase运行模式分类
  • 5.2.2 Hbase的安装
  • 5.2.3 HBase基本API实例
  • 5.2.4 HBase Shell工具使用
  • 5.3 Hbase的存储结构
  • 5.3.1 存储结构中重要模块
  • 5.3.2 HBase物理存储和逻辑视图
  • 5.3.3 数据坐标
  • 5.4 HBase的实现原理
  • 5.4.1 Hbase的读写流程
  • 5.4.2 表和Region
  • 5.4.3 Region的定位
  • 5.5 HBase表结构设计
  • 5.5.1 列族定义
  • 5.5.2 表设计原则
  • 5.5.3 Rowkey设计
  • 5.6 本章小结
  • 5.7 习题
  • 第6章 NoSQL数据库
  • 6.1 NoSQL简介
  • 6.1.1 NoSQL的含义
  • 6.1.2 NoSQL的产生
  • 6.1.3 NoSQL的特点
  • 6.2 NoSQL技术基础
  • 6.2.1 一致性策略
  • 6.2.2 数据分区与放置策略
  • 6.2.3 数据复制与容错技术
  • 6.2.4 数据的缓存技术
  • 6.3 NoSQL的类型
  • 6.3.1 键值存储
  • 6.3.2 列存储
  • 6.3.3 面向文档存储
  • 6.3.4 图形存储
  • 6.4 NoSQL典型工具
  • 6.4.1 Redis
  • 6.4.2 CouchDB
  • 6.5 本章小结
  • 6.6 习题
  • 第7章 集群计算Spark
  • 7.1 深入理解Spark
  • 7.1.1 Spark简介
  • 7.1.2 Spark与Hadoop差异
  • 7.1.3 Spark的适用场景
  • 7.1.4 Spark成功案例
  • 7.2 Spark的安装与配置
  • 7.2.1 安装模式
  • 7.2.2 Spark的安装
  • 7.2.3 启动并验证Spark
  • 7.3 Spark程序的运行模式
  • 7.3.1 Spark on Yarn-cluster
  • 7.3.2 Spark on Yarn-client
  • 7.4 Spark编程实践
  • 7.4.1 启动Spark Shell
  • 7.4.2 Spark RDD基本操作
  • 7.4.3 Spark应用程序
  • 7.5 Spark的三个典型应用案例
  • 7.5.1 词频数统计
  • 7.5.2 人口的平均年龄
  • 7.5.3 搜索频率最高的K个关键词
  • 7.6 本章小结
  • 7.7 习题
  • 第8章 流计算Storm
  • 8.1 流计算概述
  • 8.1.1 流计算的概念
  • 8.1.2 流计算与Hadoop
  • 8.1.3 流计算框架
  • 8.2 开源流计算框架Storm
  • 8.2.1 Storm简介
  • 8.2.2 Storm的特点
  • 8.2.3 Storm的设计思想
  • 8.2.4 Storm的框架设计
  • 8.3 实时计算处理流程
  • 8.3.1 数据实时采集和计算
  • 8.3.2 数据查询服务
  • 8.4 典型的流引擎Spark Streaming
  • 8.4.1 Spark Streaming
  • 8.4.2 Storm和Spark Streaming框架对比
  • 8.5 流计算的应用案例
  • 8.5.1 技术架构
  • 8.5.2 技术实现
  • 8.5.3 项目预案
  • 8.6 本章小结
  • 8.7 习题
  • 第9章 分布式协调系统ZooKeeper
  • 9.1 ZooKeeper概述
  • 9.1.1 ZooKeeper简介
  • 9.1.2 ZooKeeper数据模型
  • 9.1.3 ZooKeeper特征
  • 9.1.4 ZooKeeper工作原理
  • 9.2 ZooKeeper的安装和配置
  • 9.2.1 安装ZooKeeper
  • 9.2.2 配置ZooKeeper
  • 9.2.3 运行ZooKeeper
  • 9.3 ZooKeeper的简单操作及步骤
  • 9.4 ZooKeeper Shell操作
  • 9.4.1 ZooKeeper服务命令
  • 9.4.2 ZooKeeper客户端命令
  • 9.5 ZooKeeper API操作
  • 9.6 ZooKeeper应用案例
  • 9.6.1 使用场景及结构
  • 9.6.2 编码实现
  • 9.7 本章小结
  • 9.8 习题
  • 第10章 销售数据分析系统
  • 10.1 数据采集
  • 10.1.1 在Windows下安装JDK
  • 10.1.2 在Windows下安装Eclipse
  • 10.1.3 将WebCollector项目导入Eclipse
  • 10.1.4 在Windows下安装MySQL
  • 10.1.5 连接JDBC
  • 10.1.6 运行爬虫程序
  • 10.2 在HBase集群上准备数据
  • 10.2.1 将数据导入到MySQL
  • 10.2.2 将MySQL表中的数据导入到HBase表中
  • 10.3 安装Phoenix中间件
  • 10.3.1 Phoenix架构
  • 10.3.2 解压安装Phoenix
  • 10.3.3 Phoenix环境配置
  • 10.3.4 使用Phoenix
  • 10.4 基于Web的前端开发
  • 10.4.1 将Web前端项目导入Eclipse
  • 10.4.2 安装Tomcat
  • 10.4.3 在Eclipse中配置Tomcat
  • 10.4.4 在Web浏览器中查看执行结果
  • 10.5 本章小结
  • 10.6 习题
  • 第11章 交互式数据处理
  • 11.1 数据预处理
  • 11.1.1 查看数据
  • 11.1.2 数据扩展
  • 11.1.3 数据过滤
  • 11.1.4 数据上传
  • 11.2 创建数据仓库
  • 11.2.1 创建数据仓库的基本命令
  • 11.2.2 创建Hive区分表
  • 11.3 数据分析
  • 11.3.1 基本统计
  • 11.3.2 用户行为分析
  • 11.3.3 实时数据
  • 11.4 本章小结
  • 11.5 习题
  • 第12章 协同过滤推荐系统
  • 12.1 推荐算法概述
  • 12.1.1 基于人口统计学的推荐
  • 12.1.2 基于内容的推荐
  • 12.1.3 基于协同过滤的推荐
  • 12.2 协同过滤推荐算法分析
  • 12.2.1 基于用户的协同过滤推荐
  • 12.2.2 基于物品的协同过滤推荐
  • 12.3 Spark MLlib推荐算法应用
  • 12.3.1 ALS算法原理
  • 12.3.2 ALS的应用设计
  • 12.4 本章小结
  • 12.5 习题
  • 附录 课后习题答案
  • 参考文献
展开全部

评分及书评

评分不足
1个评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。