计算机
类型
可以朗读
语音朗读
263千字
字数
2019-02-01
发行日期
展开全部
主编推荐语
全面系统介绍大数据概念、技术及应用,实例与理论相结合。
内容简介
本书以基本概念与实例相结合的方法,由浅入深、顺序渐进的对大数据思维、技术和应用做了全面系统的介绍。全书共12章,分为大数据基础篇、大数据存储篇、大数据处理篇、大数据挖掘篇和大数据应用篇。每个知识节点都配有与理论学习内容相结合的案例介绍和代码实例,并在每章后面都配有丰富的作业。
目录
- 扉页
- 版权页
- 目录
- 作者简介
- 内容提要
- 前言
- 第一部分 大数据基础篇
- 第1章 大数据思维
- 1.1 什么是大数据
- 1.2 从IT时代到大数据时代
- 1.3 大数据的产生与作用
- 1.3.1 大数据的产生
- 1.3.2 大数据的作用
- 1.4 大数据时代的新理念
- 1.4.1 对研究范式的新认识:从第三范式到第四范式
- 1.4.2 对数据重要性的新认识:从数据资源到数据资产
- 1.4.3 对方法论的新认识:从基于知识到基于数据
- 1.4.4 对数据分析的新认识:从统计学到数据科学
- 1.4.5 对计算智能的新认识:从复杂算法到简单算法
- 1.4.6 对管理目标的新认识:从业务数据化到数据业务化
- 1.4.7 对决策方式的新认识:从目标驱动型到数据驱动型
- 1.4.8 对产业竞合关系的新认识:从以战略为中心到以数据为中心
- 1.4.9 对数据复杂性的新认识:从不接受到接受数据的复杂性
- 1.4.10 对数据处理模式的新认识:从小众参与到大众协同
- 1.5 总结
- 习题
- 第2章 大数据技术概述
- 2.1 大数据处理的基本流程
- 2.1.1 数据抽取与集成
- 2.1.2 数据分析
- 2.1.3 数据解释
- 2.2 大数据关键技术
- 2.2.1 大数据采集技术
- 2.2.2 大数据预处理技术
- 2.2.3 大数据存储及管理技术
- 2.2.4 大数据处理
- 2.2.5 大数据分析及挖掘技术
- 2.2.6 大数据展示技术
- 2.3 总结
- 习题
- 第3章 大数据采集
- 3.1 大数据采集概述
- 3.1.1 大数据分类
- 3.1.2 大数据采集方法分类
- 3.2 系统日志采集方法
- 3.2.1 Flume的基本概念
- 3.2.2 Flume使用方法
- 3.2.3 Flume应用案例
- 3.3 网络数据采集方法
- 3.3.1 网络爬虫原理
- 3.3.2 网络爬虫工作流程
- 3.3.3 网络爬虫抓取策略
- 3.3.4 Scrapy网络爬虫系统
- 3.3.5 小结
- 3.4 总结
- 习题
- 第4章 大数据预处理
- 4.1 大数据预处理概述
- 4.1.1 大数据预处理整体架构
- 4.1.2 数据质量问题分类
- 4.1.3 大数据预处理方法
- 4.2 数据清洗
- 4.2.1 遗漏数据处理
- 4.2.2 噪声数据处理
- 4.2.3 不一致数据处理
- 4.3 数据集成
- 4.4 数据转换
- 4.5 数据消减
- 4.5.1 数据立方合计
- 4.5.2 维数消减
- 4.5.3 数据压缩
- 4.5.4 数据块消减
- 4.6 离散化和概念层次树
- 4.6.1 数值概念层次树
- 4.6.2 类别概念层次树
- 4.7 ETL工具Kettle
- 4.7.1 ETL工具简介
- 4.7.2 安装Kettle
- 4.7.3 Kettle的数据流处理
- 4.8 总结
- 习题
- 第5章 大数据处理系统
- 5.1 大数据技术概述
- 5.1.1 分布式计算
- 5.1.2 服务器集群
- 5.1.3 大数据的技术基础
- 5.2 Google大数据处理系统
- 5.2.1 GFS
- 5.2.2 MapReduce
- 5.2.3 BigTable
- 5.3 Hadoop大数据处理系统
- 5.3.1 Hadoop系统简介
- 5.3.2 Hadoop生态圈
- 5.3.3 Hadoop版本演进
- 5.3.4 Hadoop发行版本
- 5.4 总结
- 习题
- 第二部分 大数据存储篇
- 第6章 大数据文件系统HDFS
- 6.1 HDFS简介
- 6.2 HDFS基本原理
- 6.2.1 文件系统的问题
- 6.2.2 HDFS的基本思想
- 6.2.3 HDFS的设计理念
- 6.2.4 HDFS的局限
- 6.3 HDFS系统实现
- 6.3.1 HDFS整体架构
- 6.3.2 HDFS数据复制
- 6.4 HDFS数据访问机制
- 6.4.1 读取流程
- 6.4.2 写入流程
- 6.5 HDFS操作
- 6.5.1 HDFS常用命令
- 6.5.2 HDFS的Web界面
- 6.5.3 HDFS的Java API
- 6.6 总结
- 习题
- 第7章 NoSQL数据库HBase
- 7.1 NoSQL概述
- 7.1.1 NoSQL的起因
- 7.1.2 NoSQL的特点
- 7.1.3 NoSQL数据库面临的挑战
- 7.1.4 NoSQL的类型
- 7.2 HBase概述
- 7.3 HBase数据模型
- 7.3.1 数据模型概述
- 7.3.2 数据模型的基本概念
- 7.3.3 概念视图
- 7.3.4 物理视图
- 7.4 HBase命令行
- 7.4.1 一般操作
- 7.4.2 DDL操作
- 7.4.3 DML操作
- 7.4.4 HBase表实例
- 7.5 HBase的运行机制
- 7.5.1 HBase的物理存储
- 7.5.2 HBase的逻辑架构
- 7.6 HBase的编程
- 7.6.1 HBase的常用Java API
- 7.6.2 HBase编程实例
- 7.7 总结
- 习题
- 第三部分 大数据处理篇
- 第8章 大数据批处理Hadoop MapReduce
- 8.1 MapReduce概述
- 8.1.1 批处理模式
- 8.1.2 MapReduce简释
- 8.1.3 MapReduce基本思想
- 8.1.4 Map函数和Reduce函数
- 8.2 Hadoop MapReduce架构
- 8.3 Hadoop MapReduce的工作流程
- 8.4 实例分析:单词计数
- 8.4.1 设计思路
- 8.4.2 处理过程
- 8.5 Hadoop MapReduce 的工作机制
- 8.5.1 Hadoop MapReduce作业执行流程
- 8.5.2 Hadoop MapReduce的Shuffle阶段
- 8.5.3 Hadoop MapReduce的主要特点
- 8.6 Hadoop MapReduce编程实战
- 8.6.1 任务准备
- 8.6.2 编写Map程序
- 8.6.3 编写Reduce程序
- 8.6.4 编写main函数
- 8.6.5 核心代码包
- 8.6.6 运行代码
- 8.7 总结
- 习题
- 第9章 大数据快速处理Spark
- 9.1 Spark简介
- 9.1.1 Spark与Hadoop
- 9.1.2 Spark的适用场景
- 9.2 RDD概念
- 9.2.1 RDD的基本概念
- 9.2.2 RDD基本操作
- 9.2.3 RDD血缘关系
- 9.2.4 RDD依赖类型
- 9.2.5 阶段划分
- 9.2.6 RDD缓存
- 9.3 Spark运行架构和机制
- 9.3.1 Spark总体架构
- 9.3.2 Spark运行流程
- 9.4 Spark生态系统
- 9.5 Spark编程实践
- 9.5.1 启动Spark Shell
- 9.5.2 Spark Shell使用
- 9.5.3 编写Java应用程序
- 9.6 总结
- 习题
- 第10章 大数据实时流计算Spark Streaming
- 10.1 Spark Streaming简介
- 10.2 Spark Streaming的系统架构
- 10.2.1 传统流处理系统架构
- 10.2.2 Spark Streaming系统架构
- 10.2.3 动态负载均衡
- 10.2.4 容错性
- 10.2.5 实时性、扩展性与吞吐量
- 10.3 编程模型
- 10.3.1 DStream的操作流程
- 10.3.2 Spark Streaming使用
- 10.3.3 DStream的输入源
- 10.4 DStream的操作
- 10.4.1 普通的转换操作
- 10.4.2 窗口转换操作
- 10.4.3 输出操作
- 10.4.4 持久化
- 10.5 编程实战
- 10.5.1 流数据模拟器
- 10.5.2 实例1:读取文件演示
- 10.5.3 实例2:网络数据演示
- 10.5.4 实例3:Stateful演示
- 10.5.5 实例4:窗口演示
- 10.6 总结
- 习题
- 第四部分 大数据挖掘篇
- 第11章 大数据挖掘
- 11.1 数据挖掘概述
- 11.1.1 什么是数据挖掘
- 11.1.2 数据挖掘的价值类型
- 11.1.3 数据挖掘算法的类型
- 11.2 Spark MLlib简介
- 11.2.1 Spark MLlib的构成
- 11.2.2 Spark MLlib的优势
- 11.3 分类和预测
- 11.3.1 分类的基本概念
- 11.3.2 预测的基本概念
- 11.3.3 决策树算法
- 11.3.4 朴素贝叶斯算法
- 11.3.5 回归分析
- 11.3.6 小结
- 11.4 聚类分析
- 11.4.1 基本概念
- 11.4.2 聚类分析方法的类别
- 11.4.3 k-means聚类算法
- 11.4.4 DBSCAN聚类算法
- 11.4.5 小结
- 11.5 关联分析
- 11.5.1 概述
- 11.5.2 基本概念
- 11.5.3 关联分析步骤
- 11.5.4 Apriori关联分析算法
- 11.5.5 FP-Tree关联分析算法
- 11.5.6 小结
- 11.6 总结
- 习题
- 第五部分 大数据应用篇
- 第12章 大数据应用
- 12.1 大数据功能应用
- 12.1.1 基于大数据的精准营销
- 12.1.2 基于大数据的个性化推荐
- 12.1.3 大数据预测
- 12.1.4 大数据的其他应用领域
- 12.1.5 小结
- 12.2 大数据行业应用
- 12.2.1 大数据行业应用概述
- 12.2.2 金融行业大数据
- 12.2.3 互联网行业的大数据应用
- 12.2.4 物流行业大数据应用
- 12.2.5 小结
- 12.3 总结
- 习题
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。