科技
类型
可以朗读
语音朗读
115千字
字数
2019-04-01
发行日期
展开全部
主编推荐语
本书覆盖了大数据生命周期中的主要技术要点。
内容简介
全书共8章,第1章介绍大数据的产生和特点及思维的变革,第2章了解大数据生态系统,第3~7章按照大数据的生命周期,分别讨论大数据采集与预处理、大数据管理、大数据分析、大数据可视化、大数据应用的基本原理和方法,第8章讨论大数据安全面临的挑战。
目录
- 版权信息
- 前言
- 第1章 概论
- 1.1 揭秘大数据
- 1.1.1 大数据产生历史必然
- 1.1.2 大数据概念和特征
- 1.1.3 大数据生命周期
- 1.1.4 大数据与物联网、云计算、人工智能
- 1.1.5 大数据时代的八个重大变革
- 1.2 Linux系统概述
- 1.2.1 Linux版本
- 1.2.2 Linux系统目录结构
- 1.2.3 文本编辑器vi
- 1.2.4 文件权限解读
- 1.2.5 Linux系统常用命令
- 习题1
- 实验报告1 Linux实验
- 第2章 大数据生态系统
- 2.1 认识Hadoop
- 2.2 HDFS
- 2.2.1 HDFS体系结构
- 2.2.2 HDFS存储原理
- 2.2.3 HDFS常用操作
- 2.3 MapReduce
- 2.3.1 MapReduce逻辑结构
- 2.3.2 MapReduce操作案例
- *2.4 Zookeeper
- 习题2
- 实验报告2 Hadoop实验
- 第3章 大数据采集与预处理
- 3.1 数据
- 3.1.1 数据是什么
- 3.1.2 数据分类
- 3.1.3 度量和维度
- 3.2 数据采集
- 3.2.1 数据采集分类
- 3.2.2 数据采集方法
- 3.2.3 数据采集工具
- 3.3 数据清洗
- 3.3.1 数据清洗原理
- 3.3.2 缺失值和异常数据
- 3.3.3 数据清洗基本操作
- 3.4 网络爬虫
- 3.4.1 爬虫简介
- *3.4.2 论坛爬虫源代码分析
- 习题3
- *实验报告3 网络爬虫
- 第4章 大数据管理
- 4.1 NoSQL
- 4.1.1 NoSQL概述
- 4.1.2 键值数据库
- 4.1.3 图数据库
- 4.1.4 文档数据库
- 4.1.5 列式数据库
- 4.1.6 云数据库
- 4.2 HBase
- 4.2.1 HBase模型
- 4.2.2 HBase与传统关系数据库的对比分析
- 4.2.3 HBase系统架构
- 4.2.4 HBase常用Shell命令
- 习题4
- 实验报告4 HBase实验
- 第5章 大数据分析
- 5.1 大数据分析概述
- 5.1.1 数据分析原则
- 5.1.2 大数据分析特点
- 5.1.3 大数据分析流程
- 5.1.4 数据分析师基本技能和素质
- *5.1.5 大数据分析难点
- *5.2 业务理解
- 5.2.1 什么是业务理解
- 5.2.2 如何理解业务
- 5.2.3 数据业务化
- 5.3 数据认知
- 5.3.1 数据变换
- 5.3.2 概率分析
- *5.3.3 对比分析
- *5.3.4 细分分析
- *5.3.5 交叉分析
- 5.3.6 相关分析
- 5.4 特征工程
- 5.4.1 特征工程面临的挑战
- 5.4.2 特征选择
- 5.4.3 特征提取
- 5.4.4 指标设计
- 5.5 数据建模
- 5.5.1 模型分类
- 5.5.2 决策树
- 5.5.3 关联分析
- 5.5.4 回归分析
- 5.5.5 聚类分析
- *5.5.6 k-邻近分类算法KNN
- *5.6 通用计算引擎Spark
- 5.6.1 Spark简介
- 5.6.2 Spark与Hadoop差异
- 5.6.3 Spark适用场景
- 5.6.4 Spark运行模式
- 5.6.5 Spark常用术语
- 5.6.6 Spark编程实战——单词统计
- 5.7 大数据分析引擎Hive
- 5.7.1 数据仓库概念
- 5.7.2 传统数据仓库的问题
- 5.7.3 Hive特征
- 5.7.4 Hive系统架构
- 5.7.5 Hive应用案例
- 习题5
- 实验报告5 Hive实验
- 第6章 大数据可视化
- 6.1 数据可视化基本概念
- 6.1.1 为什么要数据可视化
- 6.1.2 什么是数据可视化
- 6.1.3 数据可视化的作用
- 6.1.4 数据可视化术语
- 6.1.5 数据可视化三要素
- 6.2 常用图形
- 6.2.1 饼图(扇形图)
- 6.2.2 堆积柱形图
- 6.2.3 风玫瑰图
- 6.2.4 柱状图
- 6.2.5 直方图
- 6.2.6 气泡图
- 6.2.7 散点图矩阵
- 6.2.8 折线图
- 6.2.9 面积图
- 6.2.10 相关系数图
- 6.2.11 雷达图
- 6.2.12 箱线图
- 6.3 数据可视化设计
- 6.3.1 数据可视化设计原则
- 6.3.2 数据可视化=数据+设计+故事
- 6.3.3 数据可视化图形选择建议
- 6.4 数据可视化工具
- 6.4.1 基本工具
- 6.4.2 进阶工具
- 6.5 基于R语言可视化基础
- 6.5.1 基本绘图命令
- 6.5.2 ggplot2绘图
- 习题6
- *实验报告6 可视化实验
- 第7章 大数据应用
- 7.1 零售行业大数据
- 7.1.1 沃尔玛的购物篮分析
- 7.1.2 农夫山泉用海量照片提升销量
- 7.2 交通大数据
- 7.2.1 交通拥堵大数据分析
- 7.2.2 预测起飞时间
- 7.3 医疗大数据
- 7.3.1 移动医疗与个人健康
- 7.3.2 基因测序——精准治癌正在成为现实
- 习题7
- 第8章 大数据安全
- 8.1 大数据安全的重要意义
- 8.2 大数据面临的挑战
- 8.3 大数据的安全威胁
- 8.3.1 大数据基础设施安全威胁
- 8.3.2 大数据存储安全威胁
- 8.3.3 大数据的隐私泄露
- 8.3.4 大数据的其他安全威胁
- 8.4 大数据与网络攻击监测
- 8.5 大数据安全分析
- 8.6 大数据安全标准
- 8.6.1 基础标准类
- 8.6.2 平台和技术类
- 8.6.3 数据安全类
- 8.6.4 服务安全类
- 8.6.5 应用安全类
- 8.7 大数据安全技术
- 习题8
- 附录 大数据软件安装
- 参考文献
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。