科技
类型
可以朗读
语音朗读
255千字
字数
2023-08-01
发行日期
展开全部
主编推荐语
数据挖掘基础流程、模型方法、实现技术及案例应用,适合本科数据挖掘课程的教学。
内容简介
数据挖掘旨在发现蕴含在数据中的有价值的数据模式、知识或规律,是目前非常热门的研究领域。理解数据挖掘模型的原理、方法并熟练掌握其实现技术是数据挖掘从业者的能力。
本书从理论模型和技术实战两个角度,全面讲述数据挖掘的基本流程、模型方法、实现技术及案例应用,帮助读者系统地掌握数据挖掘的核心技术,培养读者从事数据挖掘工作的基本能力。
本书适合作为相关专业本科生和研究生的数据挖掘课程的教材,也可以作为数据挖掘技术爱好者或从业者的入门参考书。
目录
- 版权信息
- 内容提要
- 前言
- 第1章 绪论
- 1.1 数据挖掘概述
- 1.1.1 基本概念
- 1.1.2 数据挖掘的典型应用场景
- 1.1.3 数据挖掘的演化历程
- 1.2 数据挖掘的一般流程
- 1.3 数据挖掘环境的配置
- 1.3.1 常用的数据挖掘工具
- 1.3.2 Anaconda 3下载和安装
- 1.4 本章小结
- 习题
- 第2章 Python数据挖掘模块
- 2.1 NumPy
- 2.1.1 Ndarray的创建
- 2.1.2 Ndarray的属性
- 2.1.3 索引和切片
- 2.1.4 排序
- 2.1.5 NumPy的数组运算
- 2.1.6 NumPy的统计函数
- 2.2 Pandas
- 2.2.1 Pandas的数据结构
- 2.2.2 查看和获取数据
- 2.2.3 Pandas的算术运算
- 2.2.4 Pandas的汇总和描述性统计函数
- 2.2.5 Pandas的其他常用函数
- 2.2.6 Pandas读写文件
- 2.3 Matplotlib
- 2.3.1 Matplotlib基本绘图元素
- 2.3.2 常用的Matplotlib图形绘制
- 2.4 Scikit-learn
- 2.5 本章小结
- 习题
- 第3章 数据探索
- 3.1 数据对象与特征
- 3.1.1 特征及其类型
- 3.1.2 离散和连续特征
- 3.2 数据统计描述
- 3.2.1 集中趋势
- 3.2.2 离中趋势
- 3.3 数据可视化
- 3.3.1 散点图
- 3.3.2 箱线图
- 3.3.3 频率直方图
- 3.3.4 柱状图
- 3.3.5 饼图
- 3.3.6 散点图矩阵
- 3.4 相关性和相似性度量
- 3.4.1 相关性度量
- 3.4.2 相似性度量
- 3.5 本章小结
- 习题
- 第4章 数据预处理
- 4.1 数据集成
- 4.2 数据清洗
- 4.2.1 重复值处理
- 4.2.2 缺失值处理
- 4.2.3 异常值处理
- 4.3 数据变换
- 4.3.1 数据规范化
- 4.3.2 数值特征的二值化和离散化
- 4.3.3 标称特征的数值化处理
- 4.4 数据规约
- 4.4.1 样本规约
- 4.4.2 维度规约
- 4.4.3 数据压缩
- 4.5 本章小结
- 习题
- 第5章 特征选择
- 5.1 特征选择方法概述
- 5.2 过滤法
- 5.2.1 单变量过滤方法
- 5.2.2 多变量过滤方法
- 5.2.3 过滤法的优缺点
- 5.2.4 综合实例
- 5.3 包装法
- 5.3.1 递归特征消除
- 5.3.2 序列特征选择
- 5.3.3 包装法的优缺点
- 5.4 嵌入法
- 5.4.1 基于正则化线性模型的方法
- 5.4.2 基于树模型的方法
- 5.4.3 嵌入法的优缺点
- 5.5 本章小结
- 习题
- 第6章 基础分类模型及回归模型
- 6.1 基本理论
- 6.1.1 分类模型
- 6.1.2 欠拟合和过拟合
- 6.1.3 二分类和多分类
- 6.1.4 线性及非线性分类器
- 6.2 朴素贝叶斯分类器
- 6.2.1 基本原理
- 6.2.2 基于Python的实现
- 6.3 k近邻分类器
- 6.3.1 基本原理
- 6.3.2 基于Python的实现
- 6.4 决策树
- 6.4.1 基本原理
- 6.4.2 属性选择方法
- 6.4.3 例子:计算信息增益
- 6.4.4 剪枝
- 6.4.5 基于CART决策树的分类
- 6.4.6 进一步讨论
- 6.5 人工神经网络
- 6.5.1 人工神经网络简介
- 6.5.2 BP神经网络
- 6.5.3 基于BP神经网络的分类
- 6.6 支持向量机
- 6.6.1 支持向量机的原理
- 6.6.2 支持向量分类的Python实现
- 6.7 模型的性能评价
- 6.7.1 分类模型的评价指标
- 6.7.2 模型的评估方法
- 6.8 案例:信用评分模型
- 6.8.1 案例描述
- 6.8.2 探索性数据分析和预处理
- 6.8.3 模型训练与评估
- 6.9 回归
- 6.9.1 线性回归
- 6.9.2 CART决策树回归
- 6.9.3 BP神经网络回归
- 6.9.4 支持向量回归
- 6.10 本章小结
- 习题
- 第7章 集成技术
- 7.1 基本集成技术
- 7.1.1 装袋
- 7.1.2 提升
- 7.1.3 堆叠
- 7.1.4 集成技术的定性分析
- 7.2 随机森林
- 7.2.1 工作原理
- 7.2.2 随机森林的Python实现
- 7.3 提升树
- 7.3.1 原理
- 7.3.2 提升树的Python实现
- 7.4 案例:电信客户流失预测
- 7.4.1 探索数据
- 7.4.2 模型性能比较
- 7.5 类不平衡问题
- 7.5.1 类不平衡处理方法
- 7.5.2 不平衡数据处理的Python实现
- 7.6 本章小结
- 习题
- 第8章 聚类分析
- 8.1 聚类的基本原理
- 8.2 k-means算法
- 8.2.1 基本原理
- 8.2.2 进一步讨论
- 8.2.3 基于Python的实现
- 8.2.4 k-means算法的优缺点
- 8.3 聚类算法的性能评价指标
- 8.3.1 内部度量指标
- 8.3.2 外部度量指标
- 8.3.3 基于Python的实现
- 8.4 DBSCAN算法
- 8.4.1 基本概念
- 8.4.2 DBSCAN聚类算法的原理
- 8.4.3 进一步讨论
- 8.4.4 基于Python的实现
- 8.4.5 DBSCAN算法的优缺点
- 8.5 GMM聚类算法
- 8.5.1 基本原理
- 8.5.2 进一步讨论
- 8.5.3 基于Python的实现
- 8.5.4 讨论:优点和不足
- 8.6 本章小结
- 习题
- 第9章 关联规则分析
- 9.1 概述
- 9.1.1 基本概念
- 9.1.2 关联规则挖掘算法
- 9.2 Apriori算法生成频繁项集
- 9.2.1 先验原理
- 9.2.2 产生频繁项集
- 9.2.3 生成关联规则
- 9.2.4 基于Python的Apriori算法实现
- 9.2.5 进一步讨论
- 9.3 FP-growth算法
- 9.3.1 FP-tree的构建
- 9.3.2 挖掘主FP-tree和条件FP-tree
- 9.3.3 基于Python的FP-growth算法实现
- 9.3.4 进一步讨论
- 9.4 Eclat算法
- 9.4.1 事务数据集的表示方式
- 9.4.2 Eclat算法生成频繁项集
- 9.4.3 基于Python的Eclat算法实现
- 9.4.4 进一步讨论
- 9.5 案例:网上零售购物篮分析
- 9.5.1 数据集及案例背景
- 9.5.2 探索性分析和数据预处理
- 9.5.3 使用Apriori算法挖掘关联规则
- 9.6 本章小结
- 习题
- 第10章 时间序列挖掘
- 10.1 时间序列挖掘概述
- 10.1.1 时间序列挖掘的目的
- 10.1.2 时间序列挖掘的意义
- 10.1.3 时间序列挖掘的基本概念
- 10.2 时间序列预处理
- 10.2.1 常用序列特征统计量
- 10.2.2 平稳序列
- 10.2.3 平稳性检验
- 10.2.4 纯随机性检验
- 10.3 平稳非白噪声序列建模
- 10.3.1 AR模型
- 10.3.2 MA模型
- 10.3.3 ARMA模型
- 10.3.4 建模过程
- 10.3.5 模型检验方法
- 10.4 非平稳序列建模
- 10.4.1 非平稳序列概述
- 10.4.2 差分运算
- 10.4.3 ARIMA模型
- 10.5 基于Python的ARIMA模型实现
- 10.6 案例:基于ARIMA模型的销售额预测
- 10.7 本章小结
- 习题
- 第11章 异常检测
- 11.1 基于统计的异常检测方法
- 11.1.1 基于一元正态分布的异常检测方法
- 11.1.2 基于多元正态分布的异常检测方法
- 11.1.3 基于Python的实现
- 11.2 基于聚类的异常检测方法
- 11.2.1 基本原理
- 11.2.2 基于Python的实现
- 11.3 孤立森林方法
- 11.3.1 基本原理
- 11.3.2 基于Python的实现
- 11.4 本章小结
- 习题
- 第12章 智能推荐
- 12.1 智能推荐概述
- 12.1.1 智能推荐定义
- 12.1.2 智能推荐场景
- 12.1.3 常用智能推荐技术
- 12.2 基于用户的协同过滤技术
- 12.2.1 概述
- 12.2.2 常用的评价指标
- 12.2.3 基本过程描述
- 12.2.4 案例:使用基于用户的协同过滤方法进行电影推荐
- 12.3 基于物品的协同过滤技术
- 12.4 非负矩阵分解
- 12.4.1 基本原理
- 12.4.2 基于Python的实现
- 12.5 本章小结
- 习题
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。