主编推荐语
大数据时代关键技术:采集、预处理、存储、计算和安全
内容简介
在大数据时代背景下,如何从大数据中采集出有用的信息并合理地存储起来已经是大数据发展的最关键因素,数据采集与处理是大数据产业的基石。本书首先介绍了大数据概念及特征、大数据处理关键技术、开源 Hadoop安装与使用、Hadoop生态系统及主要组件,在此基础上重点介绍了大数据采集、大数据预处理、大数据存储与计算、大数据安全等关键技术,并且每一部分都以案例为依托进行项目实战。大数据采集部分具体包括:大数据采集方法、常用采集工具及平台、网络爬虫、Apache Kafka等;大数据预处理技术包括:清理、集成、变换、数据仓库与ETL;大数据存储与计算部分介绍了RDB、MPP、HDFS、HBase、Alluxio、ElasticSearch等存储架构,Redis、Cassandra、ongoDB、Neo4j等常用的NoSQL, MapReduce计算框架、Hive数据仓库,Spark、Storm 、Flink等流计算模式,以及Pregel图计算;大数据安全部分介绍了大数据安全面临的技术问题和挑战、大数据安全关键技术以及大数据安全管理及应用;最后介绍了电商、交通、医院、电信、煤炭、教育等行业大数据采集与处理。
目录
- 封面
- 前折页
- 版权信息
- 内容简介
- 前言
- 第1章 大数据基础
- 1.1 大数据概念及特征
- 1.2 大数据采集与处理基本流程
- 1.2.1 大数据采集
- 1.2.2 大数据预处理
- 1.2.3 大数据处理
- 1.3 大数据分析
- 1.4 大数据应用
- 1.4.1 大数据应用行业分类
- 1.4.2 大数据分析在商业上的应用
- 习题
- 参考文献
- 第2章 开源Hadoop
- 2.1 Hadoop概述
- 2.1.1 Hadoop简介
- 2.1.2 Hadoop起源及发展史
- 2.1.3 Hadoop发行版本
- 2.1.4 Hadoop特性
- 2.2 Hadoop生态系统
- 2.2.1 HDFS
- 2.2.2 MapReduce
- 2.2.3 Hive
- 2.2.4 ZooKeeper
- 2.2.5 Flume
- 2.2.6 Kafka
- 2.2.7 Spark
- 2.2.8 Storm
- 2.2.9 Flink
- 2.2.10 YARN
- 2.3 Hadoop的安装与使用
- 2.3.1 环境准备
- 2.3.2 单机模式
- 2.3.3 伪分布式
- 2.3.4 完全分布式安装
- 习题
- 参考文献
- 第3章 大数据采集
- 3.1 数据采集与大数据采集
- 3.1.1 数据采集
- 3.1.2 大数据采集及数据来源
- 3.1.3 传统数据采集与大数据采集的区别
- 3.1.4 大数据采集分类
- 3.2 大数据采集方法
- 3.2.1 数据库采集
- 3.2.2 系统日志采集
- 3.2.3 网络数据采集
- 3.2.4 传感器采集
- 3.2.5 众包采集
- 3.3 常用采集工具及平台
- 3.3.1 Flume
- 3.3.2 Fluentd
- 3.3.3 Logstash
- 3.3.4 Chukwa
- 3.3.5 Scribe
- 3.3.6 Splunk
- 3.3.7 Scrapy
- 3.4 网络爬虫
- 3.4.1 网络爬虫分类
- 3.4.2 网络爬虫发展现状
- 3.4.3 网络爬虫使用技术
- 3.5 实战
- 3.5.1 项目准备
- 3.5.2 架构设计
- 3.5.3 代码实现
- 3.5.4 结果展示
- 习题
- 参考文献
- 第4章 日志采集
- 4.1 日志采集概述
- 4.1.1 系统日志分类
- 4.1.2 日志分析系统架构及日志采集方式
- 4.1.3 日志采集应用场景与日志分析应用场景
- 4.1.4 日志采集系统关键技术
- 4.2 Scribe
- 4.2.1 Scribe概述
- 4.2.2 Scribe全局配置
- 4.2.3 Scribe的存储类型配置
- 4.3 Chukwa
- 4.3.1 Chukwa概述
- 4.3.2 Chukwa架构
- 4.3.3 Chukwa数据收集应用
- 4.4 Kafka
- 4.4.1 Kafka概述
- 4.4.2 Kafka架构
- 4.4.3 Kafka日志采集
- 4.5 Flume
- 4.5.1 Flume概述
- 4.5.2 Flume架构
- 4.5.3 Flume的优势
- 4.6 实战
- 4.6.1 Flume安装部署
- 4.6.2 环境测试
- 4.6.3 采集目录到HDFS
- 4.6.4 采集文件到HDFS
- 习题
- 参考文献
- 第5章 大数据预处理
- 5.1 为什么要进行数据预处理
- 5.2 大数据预处理总体架构
- 5.3 大数据预处理方法
- 5.3.1 数据清洗
- 5.3.2 数据集成
- 5.3.3 数据转换
- 5.3.4 数据消减
- 5.4 ETL工具Kettle
- 5.4.1 ETL介绍
- 5.4.2 Kettle介绍
- 5.4.3 Kettle安装与配置
- 5.5 实战
- 5.5.1 基于Python的数据预处理
- 5.5.2 基于Hadoop生态圈的Kettle应用
- 习题
- 参考文献
- 第6章 大数据存储
- 6.1 大数据存储概述
- 6.1.1 大数据存储面临的问题
- 6.1.2 大数据存储方式
- 6.1.3 大数据存储技术路线
- 6.2 HDFS
- 6.2.1 HDFS架构
- 6.2.2 HDFS存储机制
- 6.2.3 NameNode和DataNode工作机制
- 6.3 NoSQL
- 6.3.1 NoSQL数据库概述
- 6.3.2 HBase
- 6.3.3 MongoDB
- 6.3.4 Redis
- 6.4 ElasticSearch
- 6.4.1 ElasticSearch概述
- 6.4.2 ElasticSearch基本概念
- 6.4.3 ElasticSearch工作原理
- 6.4.4 ElasticSearch存储机制
- 6.4.5 ElasticSearch分布式存储
- 6.4.6 ElasticSearch安装与运行
- 6.5 实战
- 6.5.1 主从模式搭建
- 6.5.2 Sentinel模式搭建
- 6.5.3 Cluster模式搭建
- 习题
- 参考文献
- 第7章 MapReduce
- 7.1 概述
- 7.2 MapReduce计算框架
- 7.2.1 MapReduce模型
- 7.2.2 MapReduce函数
- 7.2.3 MapReduce资源管理
- 7.2.4 MapReduce生命周期管理
- 7.3 MapReduce工作流程及原理
- 7.3.1 MapReduce工作流程
- 7.3.2 MapReduce工作原理
- 7.4 深入Shuffle过程
- 7.4.1 Map端Shuffle
- 7.4.2 Reduce端Shuffle
- 7.5 实战
- 7.5.1 任务准备
- 7.5.2 编写Map程序
- 7.5.3 编写Reduce程序
- 7.5.4 编写main函数
- 7.5.5 核心代码包
- 7.5.6 运行代码
- 习题
- 参考文献
- 第8章 Hive数据仓库
- 8.1 数据仓库简介
- 8.1.1 数据仓库概念
- 8.1.2 数据仓库的结构
- 8.1.3 传统数据仓库的问题
- 8.1.4 数据仓库的发展
- 8.2 Hive
- 8.2.1 Hive简介
- 8.2.2 Hive与传统数据库的对比
- 8.2.3 Hive系统架构
- 8.2.4 Hive体系结构
- 8.2.5 Hive工作原理
- 8.2.6 Hive的数据模型
- 8.2.7 Hive基本操作
- 8.3 Impala
- 8.3.1 Impala简介
- 8.3.2 Impala架构
- 8.3.3 Impala执行过程
- 8.3.4 Impala与Hive比较
- 8.3.5 Impala基本操作
- 8.4 Spark SQL
- 8.4.1 Spark SQL简介
- 8.4.2 Spark SQL系统架构
- 8.4.3 HiveContext和SQLContext的运行过程
- 8.4.4 Shark和Spark SQL
- 8.4.5 Spark SQL基本操作
- 8.5 案例
- 8.5.1 大数据仓库设计案例
- 8.5.2 YouTuBe项目实战
- 习题
- 参考文献
- 第9章 流计算
- 9.1 流计算简介
- 9.1.1 流计算的概念及特点
- 9.1.2 流计算的适用范围与应用场景
- 9.2 Spark Streaming
- 9.2.1 Spark Streaming 概述
- 9.2.2 Spark Streaming基本原理
- 9.2.3 Spark Streaming 运行架构
- 9.2.4 实战
- 9.3 Storm
- 9.3.1 Storm概述
- 9.3.2 Storm基础架构
- 9.3.3 Storm运行流程
- 9.3.4 实战
- 9.4 Flink
- 9.4.1 Flink概述
- 9.4.2 Flink运行架构
- 9.4.3 实战
- 9.5 案例
- 9.5.1 任务目标
- 9.5.2 实验环境
- 9.5.3 数据准备
- 9.5.4 业务(任务)实现
- 9.5.5 结果展示
- 习题
- 参考文献
- 第10章 Pregel图计算
- 10.1 Pregel图计算简介
- 10.1.1 图结构数据
- 10.1.2 传统图计算解决方案的不足
- 10.1.3 图计算通用软件
- 10.1.4 Pregel简介
- 10.2 Pregel图计算模型
- 10.2.1 有向图和顶点
- 10.2.2 顶点之间的消息传递
- 10.2.3 Pregel计算过程
- 10.3 Pregel工作原理
- 10.3.1 Pregel的C++API
- 10.3.2 消息传递机制和Combiner
- 10.3.3 Aggregator机制
- 10.3.4 拓扑改变
- 10.3.5 输入和输出
- 10.4 Pregel体系结构
- 10.4.1 Pregel的执行过程
- 10.4.2 容错性
- 10.4.3 Worker
- 10.4.4 Master
- 10.4.5 Aggregator
- 10.5 Pregel应用实例
- 10.5.1 单源最短路径
- 10.5.2 PageRank算法实现及比较
- 10.6 Hama
- 10.6.1 Hama介绍
- 10.6.2 Hama体系结构
- 10.6.3 Hama实现PageRank算法
- 习题
- 参考文献
- 第11章 大数据安全技术及应用
- 11.1 大数据安全概述
- 11.2 大数据安全威胁形式
- 11.2.1 大数据基础设施安全威胁
- 11.2.2 大数据生命周期安全威胁
- 11.2.3 大数据隐私安全威胁
- 11.3 大数据安全关键路径
- 11.3.1 大数据性能安全保障
- 11.3.2 大数据安全关键技术
- 11.4 大数据安全管理及应用
- 11.4.1 大数据安全管理
- 11.4.2 大数据安全应用
- 11.5 大数据安全案例分析
- 11.5.1 安全性能案例——如何自行搭建大数据计算平台
- 11.5.2 生命周期安全分析案例——大数据内网的硬件漏洞安全分析
- 习题
- 参考文献
- 第12章 行业大数据采集与处理
- 12.1 电商大数据采集与处理
- 12.1.1 电商行业大数据概述
- 12.1.2 京东大数据采集与处理
- 12.1.3 某电商网站完整离线数据分析案例
- 12.2 煤炭大数据采集与处理
- 12.2.1 煤炭行业大数据概述
- 12.2.2 煤炭行业大数据采集与处理
- 12.2.3 煤炭行业大数据平台案例
- 12.3 教育大数据采集与处理
- 12.3.1 总体技术架构
- 12.3.2 Hadoop与Spark集成平台
- 12.3.3 数据采集方案设计
- 12.3.4 数据清洗方案设计
- 12.3.5 数据存储方案设计
- 12.3.6 学生学业预警系统需求分析
- 12.3.7 系统体系结构设计
- 12.4 医疗大数据采集与处理
- 12.4.1 医疗大数据概述
- 12.4.2 医疗行业大数据采集与处理
- 12.4.3 医疗大数据采集与处理案例
- 12.5 电信大数据采集与处理
- 12.5.1 电信行业大数据概述
- 12.5.2 电信行业大数据采集与处理
- 12.5.3 电信行业大数据案例
- 12.6 交通大数据采集与处理
- 12.6.1 交通大数据概述
- 12.6.2 交通行业大数据采集与处理
- 12.6.3 交通大数据案例
- 习题
- 参考文献
- 反侵权盗版声明
- 后折页
- 封底
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。