互联网
类型
可以朗读
语音朗读
304千字
字数
2018-03-01
发行日期
展开全部
主编推荐语
中国大数据专家委员会刘鹏教授联合全国上百家高校从事一线教学科研任务的教师,一起编撰的高级大数据人才培养从书,本书的定位是大数据挖掘技术与应用。
内容简介
本书系统地介绍了数据挖掘算法理论与方法、工具和应用,包括经典数据挖掘算法,大数据环境下常用数据挖掘算法的优化,大数据新常态下催生的数据分析方法(如推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析)、工具与应用。
本书适合作为相关专业本科和研究生教材。高职高专学校也可以选用部分内容开展教学。本书也很适合作为大数据分析研发人员的自学书籍。
目录
- 版权信息
- 内容简介
- 编写组
- 总序
- 前言
- 第1章 绪论
- 1.1 数据挖掘概述
- 1.1.1 数据挖掘的概念
- 1.1.2 大数据环境下的数据挖掘
- 1.1.3 数据挖掘的特性
- 1.1.4 数据挖掘的过程
- 1.2 数据挖掘起源及发展历史
- 1.3 数据挖掘常用工具
- 1.3.1 商用工具
- 1.3.2 开源工具
- 1.4 数据挖掘应用场景
- 习题
- 参考文献
- 第2章 数据预处理与相似性
- 2.1 数据类型
- 2.1.1 属性与度量
- 2.1.2 数据集的类型
- 2.2 数据预处理
- 2.2.1 数据清理
- 2.2.2 数据集成
- 2.2.3 数据规范化
- 2.2.4 数据约简
- 2.2.5 数据离散化
- 2.3 数据的相似性
- 2.3.1 数值属性的相似性度量
- 2.3.2 标称属性的相似性度量
- 2.3.3 组合异种属性的相似性度量
- 2.3.4 文档相似性度量
- 2.3.5 离散序列相似性度量
- 习题
- 参考文献
- 第3章 分类
- 3.1 分类的基本概念、分类过程及分类器性能的评估
- 3.1.1 分类的基本概念
- 3.1.2 分类的过程
- 3.1.3 分类器性能的评估方法
- 3.2 决策树
- 3.2.1 决策树概述
- 3.2.2 决策树的用途和特性
- 3.2.3 决策树工作原理
- 3.2.4 决策树构建步骤
- 3.2.5 决策树算法原理
- 3.3 贝叶斯分类
- 3.3.1 贝叶斯定理
- 3.3.2 朴素贝叶斯分类原理与流程
- 3.3.3 贝叶斯分析
- 3.3.4 贝叶斯决策
- 3.4 支持向量机
- 3.4.1 支持向量机主要思想
- 3.4.2 支持向量机基础理论
- 3.4.3 支持向量机原理
- 3.5 实战:决策树算法在Weka中的实现
- 3.5.1 Weka探索者图形用户界面
- 3.5.2 决策树算法在Weka中的具体实现
- 3.5.3 使用中的具体实例
- 习题
- 参考文献
- 第4章 回归
- 4.1 回归概述
- 4.1.1 回归分析的定义
- 4.1.2 回归分析步骤
- 4.1.3 回归分析要注意的问题
- 4.2 一元回归分析
- 4.2.1 一元回归分析的模型设定
- 4.2.2 一元线性回归模型的参数估计
- 4.2.3 基本假设下OLS估计的统计性质
- 4.2.4 误差方差估计
- 4.2.5 回归系数检验(t检验)
- 4.2.6 拟合优度和模型检验(F检验)
- 4.3 多元线性回归分析
- 4.3.1 多元线性回归模型
- 4.3.2 多元线性回归模型的假定
- 4.3.3 多元线性回归模型的参数估计
- 4.3.4 显著性检验
- 4.3.5 回归变量的选择与逐步回归
- 4.4 逻辑回归分析
- 4.4.1 逻辑回归模型
- 4.4.2 logit变换
- 4.4.3 Logistic分布
- 4.4.4 列联表的Logistic回归模型
- 4.5 其他回归分析
- 4.5.1 多项式回归(Polynomial Regression)
- 4.5.2 逐步回归(Stepwise Regression)
- 4.5.3 岭回归(Ridge Regression)
- 4.5.4 套索回归(Lasso Regression)
- 4.5.5 弹性网络(ElasticNet)
- 4.6 实战:用回归分析方法给自己的房子定价
- 4.6.1 为Weka构建数据集
- 4.6.2 将数据载入Weka
- 4.6.3 用Weka创建一个回归模型
- 4.6.4 结果分析
- 习题
- 参考文献
- 第5章 聚类
- 5.1 聚类概述
- 5.2 划分方法
- 5.2.1 k均值算法
- 5.2.2 k中心点算法
- 5.3 层次方法
- 5.3.1 层次方法的分类
- 5.3.2 BIRCH算法
- 5.4 基于密度的方法
- 5.5 实战:聚类分析
- 5.5.1 背景与聚类目的
- 5.5.2 聚类过程
- 5.5.3 聚类结果分析
- 习题
- 参考文献
- 第6章 关联规则
- 6.1 概述
- 6.1.1 购物篮分析:啤酒与尿布的经典案例
- 6.1.2 关联规则的概念
- 6.1.3 频繁项集的产生
- 6.2 Apriori算法:通过限制候选项集产生发现频繁项集
- 6.2.1 Apriori算法的频繁项集产生
- 6.2.2 Apriori算法描述
- 6.3 FP-growth算法
- 6.3.1 构造FP树
- 6.3.2 挖掘FP树
- 6.3.3 FP-Tree算法
- 6.4 其他关联规则算法
- 6.4.1 约束性关联规则算法
- 6.4.2 增量式关联规则算法
- 6.4.3 多层关联规则算法
- 6.5 实战:个人信用关联规则挖掘
- 6.5.1 背景与挖掘目标
- 6.5.2 分析方法与过程
- 6.5.3 总结
- 习题
- 参考文献
- 第7章 常用大数据挖掘算法优化改进
- 7.1 分类算法
- 7.1.1 分类算法的并行化
- 7.1.2 并行化的决策树算法优化
- 7.1.3 一种新的朴素贝叶斯改进方法
- 7.1.4 支持向量机并行优化改进
- 7.2 聚类算法
- 7.2.1 聚类分析研究的主要内容及算法应用
- 7.2.2 并行聚类相关技术及算法体系结构和模型
- 7.2.3 k-means聚类算法的一种改进方法
- 7.2.4 基于Spark的k-means算法并行化设计与实现
- 7.2.5 基于Spark的k-means改进算法的并行化
- 7.2.6 基于MapReduce的聚类算法并行化
- 7.2.7 谱聚类算法并行化方法
- 7.3 关联规则
- 7.3.1 Apriori算法的一种改进方法
- 7.3.2 Apriori算法基于Spark的分布式实现
- 7.3.3 并行FP-growth关联规则算法研究
- 7.3.4 基于Spark的FP-growth算法的并行化实现
- 习题
- 参考文献
- 第8章 推荐系统
- 8.1 推荐系统概述
- 8.1.1 基本概念
- 8.1.2 发展历史
- 8.1.3 推荐系统评测指标
- 8.2 基于内容的推荐
- 8.2.1 物品表示
- 8.2.2 物品相似度
- 8.2.3 用户对物品的评分
- 8.2.4 基于向量空间模型的推荐
- 8.3 协同过滤
- 8.3.1 协同过滤基本概念
- 8.3.2 基于用户的协同过滤
- 8.3.3 基于物品的协同过滤
- 8.3.4 隐语义模型和矩阵因子分解模型
- 8.4 其他推荐技术
- 8.5 实战:基于协同过滤算法推荐电影
- 8.5.1 数据准备与导入
- 8.5.2 建立矩阵因子分解模型
- 8.5.3 推荐预测及验证
- 习题
- 参考文献
- 第9章 互联网数据挖掘
- 9.1 链接分析与网页排序
- 9.1.1 PageRank
- 9.1.2 PageRank的快速计算
- 9.1.3 面向主题的PageRank
- 9.1.4 时间序列分析
- 9.2 互联网信息抽取
- 9.2.1 概述
- 9.2.2 典型应用模型构建
- 9.2.3 挖掘、存储与网络技术分析
- 9.2.4 数据采集管理
- 9.2.5 信息抽取方法与知识发现
- 9.2.6 行业案例研究
- 9.3 日志挖掘与查询分析
- 9.3.1 概述
- 9.3.2 挖掘分析常用方法与工具比较
- 9.3.3 海量数据挖掘过程展现与分析
- 9.3.4 行业应用举例
- 习题
- 参考文献
- 附录A 数据挖掘工具Weka
- A.1 Weka简介
- A.1.1 概述
- A.1.2 Weka数据格式
- A.2 Explorer界面
- A.2.1 数据准备
- A.2.2 数据载入
- A.2.3 训练与模型评估
- A.2.4 属性选择或过滤
- A.2.5 可视化
- A.3 Knowledge Flow界面
- A.3.1 界面组件分析
- A.3.2 组件的配置与连接
- A.3.3 知识流界面实例
- A.4 Experimenter界面
- A.4.1 实验者界面实例
- A.4.2 简单设置
- A.4.3 高级设置
- A.4.4 实验结果分析
- 习题
- 参考文献
- 附录B Spark 机器学习库MLlib
- B.1 Spark简介
- B.1.1 Spark生态系统
- B.1.2 Spark集群架构
- B.1.3 Spark作业调度
- B.2 Spark RDD
- B.2.1 RDD设计思想
- B.2.2 RDD编程接口
- B.2.3 RDD操作
- B.3 Spark MLlib简介
- B.4 Spark MLlib数据类型
- B.4.1 本地向量
- B.4.2 标注点
- B.4.3 本地矩阵
- B.5 Spark MLlib算法库
- B.5.1 机器学习管道
- B.5.2 特征提取与转换
- B.5.3 分类与回归
- B.5.4 聚类
- B.5.5 协同过滤
- B.5.6 模型选择与调优
- 习题
- 参考文献
- 附录C 大数据和人工智能实验环境
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。