科技
类型
可以朗读
语音朗读
352千字
字数
2024-01-01
发行日期
展开全部
主编推荐语
本书以管理和应用视角解读大数据,重构大数据管理与应用的知识体系。
内容简介
本书以大数据分析全生命周期为主线,从大数据的采集、存储、预处理、分析、可视化、治理等环节切入,对大数据管理与应用的理论、方法、工具和应用进行科学合理的组织。
本书包含十六章,分为四篇:
概念篇主要介绍大数据管理与应用的基本概念、分析的基本思路;
基础篇主要介绍大数据管理与应用的数学基础和机器学习基础;
技术篇主要介绍大数据管理应用的数据采集与存储技术、数据预处理技术、数据回归分析技术、数据分类分析技术、数据聚类分析技术、数据关联分析技术、深度学习技术、文本分析技术、Web分析技术、可视化技术、数据治理技术;
平台与发展篇介绍大数据计算平台和综述大数据管理与应用的新进展。
本书可作为高等学校大数据管理与应用、信息管理与信息系统、数据科学与大数据技术等管理类、信息类专业本科生教材,还可以作为各行各业的管理者与实践者的培训用书和参考读物。
目录
- 版权信息
- 前言
- 第一部分 概念篇
- 第一章 绪论
- 第一节 大数据时代
- 一、大数据时代的背景
- 二、大数据时代的巨大变革
- 第二节 数据和大数据
- 一、数据
- 二、大数据
- 第三节 大数据的管理与应用概述
- 一、数据生产要素
- 二、大数据管理
- 三、大数据应用
- 第四节 大数据管理与应用的理论、技术和应用体系
- 一、大数据管理与应用的理论体系
- 二、大数据管理与应用的技术体系
- 三、大数据管理与应用的应用体系
- 第五节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第二部分 基础篇
- 第二章 大数据管理与应用的数学基础
- 第一节 线性代数基础
- 一、向量和矩阵
- 二、向量和矩阵运算
- 三、矩阵分解
- 第二节 优化基础
- 一、最优化
- 二、无约束最优化问题
- 三、约束最优化问题
- 第三节 统计基础
- 一、概率与统计
- 二、描述性统计
- 三、推断性统计
- 第四节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第三章 大数据管理与应用的机器学习基础
- 第一节 机器学习概述
- 一、机器学习的基本概念
- 二、归纳偏好
- 第二节 机器学习的分类
- 一、监督学习
- 二、无监督学习
- 三、半监督学习
- 第三节 模型评估与选择
- 一、训练误差与测试误差
- 二、模型评估方法
- 三、性能度量
- 四、偏置与方差
- 五、训练拟合与正则化
- 第四节 计算学习理论
- 一、PAC学习理论
- 二、泛化误差上界
- 第五节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第三部分 技术篇
- 第四章 数据采集与数据存储
- 第一节 数据采集
- 一、数据采集概述
- 二、数据采集系统
- 三、企业数据采集
- 第二节 关系型数据存储
- 一、关系模型
- 二、关系规范化
- 第三节 非关系型数据存储
- 一、键值数据库
- 二、文档数据库
- 三、列族数据库
- 四、图数据库
- 第四节 数据仓库
- 一、数据仓库的特征
- 二、数据仓库系统
- 三、数据仓库与决策支持
- 第五节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第五章 数据预处理
- 第一节 数据质量
- 一、准确性、完整性以及一致性
- 二、相关性和时效性
- 三、可信性和可解释性
- 第二节 数据清洗
- 一、数据清洗方式
- 二、数据清洗方法
- 第三节 数据变换
- 一、数据变换策略
- 二、通过规范化变换数据
- 三、通过离散化变换数据
- 四、标称数据的概念分层
- 第四节 数据集成
- 一、实体识别问题
- 二、冗余和相关分析
- 三、元组重复
- 四、数据值冲突的检测与处理
- 第五节 其他预处理方法
- 一、特征选择
- 二、维度约减
- 第六节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第六章 数据回归分析
- 第一节 数据回归分析概述
- 一、回归分析的基本概念
- 二、回归分析的基本类型
- 三、回归分析方法的应用
- 第二节 线性回归分析
- 一、线性回归分析概述
- 二、线性回归分析建模过程
- 第三节 岭回归分析和LASSO回归分析
- 一、岭回归分析
- 二、LASSO回归分析
- 第四节 广义线性回归分析
- 一、广义线性回归分析概述
- 二、泊松回归分析
- 第五节 非线性回归分析
- 一、非线性回归分析概述
- 二、指数函数模型
- 第六节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第七章 数据分类分析
- 第一节 数据分类分析概述
- 一、分类分析的基本概念
- 二、分类分析的基本类型
- 三、分类分析的应用
- 第二节 基于函数的分类分析
- 一、基于函数的分类分析的概念
- 二、Logistic回归模型
- 第三节 基于概率的分类分析
- 一、基于概率的分类分析的概念
- 二、朴素贝叶斯模型
- 第四节 基于最近邻的分类分析
- 一、基于最近邻的分类分析的概念
- 二、KNN模型
- 第五节 基于决策树的分类分析
- 一、基于决策树的分类分析的概念
- 二、ID3决策树模型
- 第六节 基于规则的分类分析
- 一、基于规则的分类分析的概念
- 二、RIPPER模型
- 第七节 集成分类分析
- 一、集成分类模型概述
- 二、AdaBoost模型
- 第八节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第八章 数据聚类分析
- 第一节 数据聚类分析概述
- 一、数据聚类分析的基本概念
- 二、相似性度量
- 三、数据聚类分析的基本类型
- 四、聚类性能度量
- 第二节 基于层次的聚类分析
- 一、基于层次的聚类分析的概念
- 二、AGNES模型
- 第三节 基于划分的聚类分析
- 一、基于划分的聚类分析的概念
- 二、K-Means模型
- 第四节 基于密度的聚类分析
- 一、基于密度的聚类分析的概念
- 二、DBSCAN模型
- 第五节 基于网格的聚类分析
- 一、基于网格的聚类分析的概念
- 二、STING模型
- 第六节 基于模型的聚类分析
- 一、基于模型的聚类分析的概念
- 二、EM聚类模型
- 第七节 集成聚类分析
- 一、集成聚类分析的概念
- 二、基于共联矩阵的Voting-K-means模型
- 三、基于信息论的集成聚类模型
- 四、基于非负矩阵分解的集成聚类模型
- 第八节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第九章 数据关联分析
- 第一节 数据关联分析概述
- 一、数据关联分析的基本概念
- 二、关联分析的分类
- 三、数据关联分析的应用
- 第二节 关联规则分析
- 一、关联规则分析的概念
- 二、关联规则分析的建模
- 三、Apriori算法
- 四、FP-growth算法
- 五、由频繁项集产生关联规则
- 第三节 序列模式分析
- 一、序列模式分析的概念
- 二、序列模式分析的分类
- 三、GSP算法
- 第四节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第十章 深度学习
- 第一节 深度学习概述
- 第二节 神经网络
- 一、生物神经网络
- 二、人工神经网络
- 三、人工神经网络的发展历程
- 第三节 深度前馈网络
- 一、神经元
- 二、激活函数
- 三、前馈神经网络
- 四、梯度下降
- 五、反向传播算法
- 六、梯度消失和梯度爆炸
- 第四节 卷积神经网络
- 一、卷积与互相关
- 二、池化(汇聚)
- 三、外衬与步长
- 四、卷积神经网络的结构与运作
- 第五节 循环神经网络
- 一、循环神经网络的概念
- 二、简单循环神经网络
- 三、长短期记忆网络
- 四、深层循环神经网络
- 第六节 应用案例
- 一、深度学习在计算机视觉中的应用
- 二、深度学习在自然语言处理中的应用
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第十一章 文本分析
- 第一节 文本分析概述
- 一、文本分析的基本概念
- 二、文本分析的基本流程
- 第二节 文本预处理
- 一、文本分词
- 二、文本清洗
- 第三节 特征提取和文本表示方法
- 一、TF-IDF
- 二、卡方统计量
- 三、信息增益
- 四、词向量表示
- 第四节 文本分类分析
- 一、文本分类概述
- 二、支持向量机分类方法
- 三、深度神经网络方法
- 第五节 文本聚类分析
- 一、文本聚类概述
- 二、文本相似性度量方法
- 三、主题模型
- 四、文本数据流聚类算法
- 第六节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第十二章 Web分析
- 第一节 Web分析概述
- 一、Web分析的定义
- 二、Web分析的分类
- 三、Web分析面临的挑战
- 第二节 Web内容分析
- 一、Web文本挖掘
- 二、Web多媒体挖掘
- 第三节 Web结构分析
- 一、PageRank算法
- 二、图神经网络
- 三、Web结构分析的应用
- 第四节 Web使用分析
- 一、Web使用分析的步骤
- 二、Web使用分析的应用
- 第五节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第十三章 可视化技术
- 第一节 可视化概述
- 一、可视化发展
- 二、可视化功能
- 三、可视化流程
- 第二节 可视化主要类型
- 一、科学可视化
- 二、信息可视化
- 三、可视分析学
- 第三节 可视化主要方法
- 一、视觉编码
- 二、统计图表可视化方法
- 三、图可视化方法
- 第四节 可视化评测
- 一、评测流程
- 二、评测方法
- 第五节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第十四章 数据治理
- 第一节 数据治理概述
- 一、数据治理的定义
- 二、数据治理的目标与原则
- 三、数据治理的职能与流程
- 四、数据治理面临的挑战
- 第二节 元数据治理
- 一、元数据的定义
- 二、元数据治理基本流程
- 三、元数据治理工具
- 第三节 数据质量治理
- 一、数据质量的定义
- 二、数据质量治理基本流程
- 三、数据质量治理工具
- 第四节 数据安全治理
- 一、数据安全的定义
- 二、数据安全治理基本流程
- 三、数据安全治理工具
- 第五节 数据治理评估
- 一、DMM
- 二、DCAM
- 三、DCMM
- 第六节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第四部分 平台与发展篇
- 第十五章 大数据计算平台
- 第一节 大数据计算平台概述
- 一、大数据计算平台
- 二、大数据计算平台架构
- 第二节 基于Hadoop的大数据计算平台
- 一、Hadoop概述
- 二、分布式文件系统HDFS
- 三、分布式计算框架MapReduce
- 四、资源管理框架Yarn
- 五、分布式数据库HBase
- 六、数据仓库Hive
- 第三节 基于Spark的大数据计算平台
- 一、Spark概述
- 二、Spark编程模型
- 三、Spark SQL
- 四、Spark MLlib
- 五、Spark Streaming
- 第四节 应用案例
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 第十六章 大数据管理与应用进展
- 第一节 大数据产业发展动态
- 一、国际大数据产业发展状况
- 二、中国大数据产业发展状况
- 第二节 大数据管理与应用相关职业
- 一、数据科学家
- 二、数据工程师
- 三、数据分析师
- 四、三者区别与联系
- 第三节 大数据管理与应用挑战
- 一、大数据管理与应用技术挑战
- 二、大数据管理与应用的企业内挑战
- 第四节 大数据管理与应用发展趋势
- 一、大数据技术发展趋势
- 二、大数据产业发展趋势
- ◎ 思考与练习
- ◎ 本章扩展阅读
- 参考文献
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。