展开全部

主编推荐语

全面系统介绍大数据概念、技术及应用,实例与理论相结合。

内容简介

本书以基本概念与实例相结合的方法,由浅入深、顺序渐进的对大数据思维、技术和应用做了全面系统的介绍。全书共12章,分为大数据基础篇、大数据存储篇、大数据处理篇、大数据挖掘篇和大数据应用篇。每个知识节点都配有与理论学习内容相结合的案例介绍和代码实例,并在每章后面都配有丰富的作业。

目录

  • 扉页
  • 版权页
  • 目录
  • 作者简介
  • 内容提要
  • 前言
  • 第一部分 大数据基础篇
  • 第1章 大数据思维
  • 1.1 什么是大数据
  • 1.2 从IT时代到大数据时代
  • 1.3 大数据的产生与作用
  • 1.3.1 大数据的产生
  • 1.3.2 大数据的作用
  • 1.4 大数据时代的新理念
  • 1.4.1 对研究范式的新认识:从第三范式到第四范式
  • 1.4.2 对数据重要性的新认识:从数据资源到数据资产
  • 1.4.3 对方法论的新认识:从基于知识到基于数据
  • 1.4.4 对数据分析的新认识:从统计学到数据科学
  • 1.4.5 对计算智能的新认识:从复杂算法到简单算法
  • 1.4.6 对管理目标的新认识:从业务数据化到数据业务化
  • 1.4.7 对决策方式的新认识:从目标驱动型到数据驱动型
  • 1.4.8 对产业竞合关系的新认识:从以战略为中心到以数据为中心
  • 1.4.9 对数据复杂性的新认识:从不接受到接受数据的复杂性
  • 1.4.10 对数据处理模式的新认识:从小众参与到大众协同
  • 1.5 总结
  • 习题
  • 第2章 大数据技术概述
  • 2.1 大数据处理的基本流程
  • 2.1.1 数据抽取与集成
  • 2.1.2 数据分析
  • 2.1.3 数据解释
  • 2.2 大数据关键技术
  • 2.2.1 大数据采集技术
  • 2.2.2 大数据预处理技术
  • 2.2.3 大数据存储及管理技术
  • 2.2.4 大数据处理
  • 2.2.5 大数据分析及挖掘技术
  • 2.2.6 大数据展示技术
  • 2.3 总结
  • 习题
  • 第3章 大数据采集
  • 3.1 大数据采集概述
  • 3.1.1 大数据分类
  • 3.1.2 大数据采集方法分类
  • 3.2 系统日志采集方法
  • 3.2.1 Flume的基本概念
  • 3.2.2 Flume使用方法
  • 3.2.3 Flume应用案例
  • 3.3 网络数据采集方法
  • 3.3.1 网络爬虫原理
  • 3.3.2 网络爬虫工作流程
  • 3.3.3 网络爬虫抓取策略
  • 3.3.4 Scrapy网络爬虫系统
  • 3.3.5 小结
  • 3.4 总结
  • 习题
  • 第4章 大数据预处理
  • 4.1 大数据预处理概述
  • 4.1.1 大数据预处理整体架构
  • 4.1.2 数据质量问题分类
  • 4.1.3 大数据预处理方法
  • 4.2 数据清洗
  • 4.2.1 遗漏数据处理
  • 4.2.2 噪声数据处理
  • 4.2.3 不一致数据处理
  • 4.3 数据集成
  • 4.4 数据转换
  • 4.5 数据消减
  • 4.5.1 数据立方合计
  • 4.5.2 维数消减
  • 4.5.3 数据压缩
  • 4.5.4 数据块消减
  • 4.6 离散化和概念层次树
  • 4.6.1 数值概念层次树
  • 4.6.2 类别概念层次树
  • 4.7 ETL工具Kettle
  • 4.7.1 ETL工具简介
  • 4.7.2 安装Kettle
  • 4.7.3 Kettle的数据流处理
  • 4.8 总结
  • 习题
  • 第5章 大数据处理系统
  • 5.1 大数据技术概述
  • 5.1.1 分布式计算
  • 5.1.2 服务器集群
  • 5.1.3 大数据的技术基础
  • 5.2 Google大数据处理系统
  • 5.2.1 GFS
  • 5.2.2 MapReduce
  • 5.2.3 BigTable
  • 5.3 Hadoop大数据处理系统
  • 5.3.1 Hadoop系统简介
  • 5.3.2 Hadoop生态圈
  • 5.3.3 Hadoop版本演进
  • 5.3.4 Hadoop发行版本
  • 5.4 总结
  • 习题
  • 第二部分 大数据存储篇
  • 第6章 大数据文件系统HDFS
  • 6.1 HDFS简介
  • 6.2 HDFS基本原理
  • 6.2.1 文件系统的问题
  • 6.2.2 HDFS的基本思想
  • 6.2.3 HDFS的设计理念
  • 6.2.4 HDFS的局限
  • 6.3 HDFS系统实现
  • 6.3.1 HDFS整体架构
  • 6.3.2 HDFS数据复制
  • 6.4 HDFS数据访问机制
  • 6.4.1 读取流程
  • 6.4.2 写入流程
  • 6.5 HDFS操作
  • 6.5.1 HDFS常用命令
  • 6.5.2 HDFS的Web界面
  • 6.5.3 HDFS的Java API
  • 6.6 总结
  • 习题
  • 第7章 NoSQL数据库HBase
  • 7.1 NoSQL概述
  • 7.1.1 NoSQL的起因
  • 7.1.2 NoSQL的特点
  • 7.1.3 NoSQL数据库面临的挑战
  • 7.1.4 NoSQL的类型
  • 7.2 HBase概述
  • 7.3 HBase数据模型
  • 7.3.1 数据模型概述
  • 7.3.2 数据模型的基本概念
  • 7.3.3 概念视图
  • 7.3.4 物理视图
  • 7.4 HBase命令行
  • 7.4.1 一般操作
  • 7.4.2 DDL操作
  • 7.4.3 DML操作
  • 7.4.4 HBase表实例
  • 7.5 HBase的运行机制
  • 7.5.1 HBase的物理存储
  • 7.5.2 HBase的逻辑架构
  • 7.6 HBase的编程
  • 7.6.1 HBase的常用Java API
  • 7.6.2 HBase编程实例
  • 7.7 总结
  • 习题
  • 第三部分 大数据处理篇
  • 第8章 大数据批处理Hadoop MapReduce
  • 8.1 MapReduce概述
  • 8.1.1 批处理模式
  • 8.1.2 MapReduce简释
  • 8.1.3 MapReduce基本思想
  • 8.1.4 Map函数和Reduce函数
  • 8.2 Hadoop MapReduce架构
  • 8.3 Hadoop MapReduce的工作流程
  • 8.4 实例分析:单词计数
  • 8.4.1 设计思路
  • 8.4.2 处理过程
  • 8.5 Hadoop MapReduce 的工作机制
  • 8.5.1 Hadoop MapReduce作业执行流程
  • 8.5.2 Hadoop MapReduce的Shuffle阶段
  • 8.5.3 Hadoop MapReduce的主要特点
  • 8.6 Hadoop MapReduce编程实战
  • 8.6.1 任务准备
  • 8.6.2 编写Map程序
  • 8.6.3 编写Reduce程序
  • 8.6.4 编写main函数
  • 8.6.5 核心代码包
  • 8.6.6 运行代码
  • 8.7 总结
  • 习题
  • 第9章 大数据快速处理Spark
  • 9.1 Spark简介
  • 9.1.1 Spark与Hadoop
  • 9.1.2 Spark的适用场景
  • 9.2 RDD概念
  • 9.2.1 RDD的基本概念
  • 9.2.2 RDD基本操作
  • 9.2.3 RDD血缘关系
  • 9.2.4 RDD依赖类型
  • 9.2.5 阶段划分
  • 9.2.6 RDD缓存
  • 9.3 Spark运行架构和机制
  • 9.3.1 Spark总体架构
  • 9.3.2 Spark运行流程
  • 9.4 Spark生态系统
  • 9.5 Spark编程实践
  • 9.5.1 启动Spark Shell
  • 9.5.2 Spark Shell使用
  • 9.5.3 编写Java应用程序
  • 9.6 总结
  • 习题
  • 第10章 大数据实时流计算Spark Streaming
  • 10.1 Spark Streaming简介
  • 10.2 Spark Streaming的系统架构
  • 10.2.1 传统流处理系统架构
  • 10.2.2 Spark Streaming系统架构
  • 10.2.3 动态负载均衡
  • 10.2.4 容错性
  • 10.2.5 实时性、扩展性与吞吐量
  • 10.3 编程模型
  • 10.3.1 DStream的操作流程
  • 10.3.2 Spark Streaming使用
  • 10.3.3 DStream的输入源
  • 10.4 DStream的操作
  • 10.4.1 普通的转换操作
  • 10.4.2 窗口转换操作
  • 10.4.3 输出操作
  • 10.4.4 持久化
  • 10.5 编程实战
  • 10.5.1 流数据模拟器
  • 10.5.2 实例1:读取文件演示
  • 10.5.3 实例2:网络数据演示
  • 10.5.4 实例3:Stateful演示
  • 10.5.5 实例4:窗口演示
  • 10.6 总结
  • 习题
  • 第四部分 大数据挖掘篇
  • 第11章 大数据挖掘
  • 11.1 数据挖掘概述
  • 11.1.1 什么是数据挖掘
  • 11.1.2 数据挖掘的价值类型
  • 11.1.3 数据挖掘算法的类型
  • 11.2 Spark MLlib简介
  • 11.2.1 Spark MLlib的构成
  • 11.2.2 Spark MLlib的优势
  • 11.3 分类和预测
  • 11.3.1 分类的基本概念
  • 11.3.2 预测的基本概念
  • 11.3.3 决策树算法
  • 11.3.4 朴素贝叶斯算法
  • 11.3.5 回归分析
  • 11.3.6 小结
  • 11.4 聚类分析
  • 11.4.1 基本概念
  • 11.4.2 聚类分析方法的类别
  • 11.4.3 k-means聚类算法
  • 11.4.4 DBSCAN聚类算法
  • 11.4.5 小结
  • 11.5 关联分析
  • 11.5.1 概述
  • 11.5.2 基本概念
  • 11.5.3 关联分析步骤
  • 11.5.4 Apriori关联分析算法
  • 11.5.5 FP-Tree关联分析算法
  • 11.5.6 小结
  • 11.6 总结
  • 习题
  • 第五部分 大数据应用篇
  • 第12章 大数据应用
  • 12.1 大数据功能应用
  • 12.1.1 基于大数据的精准营销
  • 12.1.2 基于大数据的个性化推荐
  • 12.1.3 大数据预测
  • 12.1.4 大数据的其他应用领域
  • 12.1.5 小结
  • 12.2 大数据行业应用
  • 12.2.1 大数据行业应用概述
  • 12.2.2 金融行业大数据
  • 12.2.3 互联网行业的大数据应用
  • 12.2.4 物流行业大数据应用
  • 12.2.5 小结
  • 12.3 总结
  • 习题
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。