互联网
类型
可以朗读
语音朗读
242千字
字数
2023-09-01
发行日期
展开全部
主编推荐语
全面介绍Python数据分析的基本概念和技能。
内容简介
随着数据存储、数据处理等大数据技术的快速发展,数据科学在各行各业得到广泛的应用。数据清洗、特征工程、数据可视化、数据挖掘与建模等已成为高校师生和职场人士迎接数字化浪潮、与时俱进提升专业技能的必修课程。本书将“Python课程学习”与“数据科学应用”有机结合,为数字化人才的培养助力。
全书共分13章,内容包括:第1章数据科学应用概述;第2章Python的入门基础知识;第3章数据清洗;第4~6章特征工程介绍,包括特征选择、特征处理和特征提取;第7章数据可视化应用;第8~13章介绍6种数据挖掘与建模的方法,分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。
目录
- 版权信息
- 内容简介
- 作者简介
- 推荐序1
- 推荐序2
- 前言
- 第1章 数据科学应用概述
- 1.1 什么是数据清洗、特征工程、数据可视化、数据挖掘与建模
- 1.1.1 数据清洗的概念
- 1.1.2 特征工程的概念
- 1.1.3 数据可视化的概念
- 1.1.4 数据挖掘与建模的概念
- 1.2 为什么要开展数据清洗、特征工程、数据可视化和数据挖掘与建模
- 1.2.1 数据清洗、特征工程的重要性
- 1.2.2 数据可视化的重要性
- 1.2.3 数据挖掘与建模的重要性
- 1.3 为什么要将Python作为实现工具
- 1.4 数据清洗、特征工程、数据可视化和数据挖掘与建模的主要内容
- 1.4.1 数据清洗的主要内容
- 1.4.2 特征工程的主要内容
- 1.4.3 数据可视化的主要内容
- 1.4.4 数据挖掘与建模的主要内容
- 1.5 数据清洗、特征工程、数据可视化和数据挖掘与建模的应用场景
- 1.5.1 数据清洗、特征工程的应用场景
- 1.5.2 数据可视化的应用场景
- 1.5.3 数据挖掘与建模的应用场景
- 1.6 数据清洗、特征工程和数据可视化的注意事项
- 1.6.1 数据清洗、特征工程的注意事项
- 1.6.2 数据可视化的注意事项
- 1.7 数据挖掘与建模的注意事项
- 1.8 习题
- 第2章 Python入门基础
- 2.1 Python概述
- 2.2 Anaconda平台的下载与安装
- 2.2.1 Anaconda平台的下载
- 2.2.2 Anaconda平台的安装
- 2.2.3 Anaconda Prompt(Anaconda3)
- 2.2.4 Spyder(Anaconda3)的介绍及偏好设置
- 2.2.5 Spyder(Anaconda3)窗口介绍
- 2.3 Python的注释
- 2.4 基本输出函数
- 2.5 基本输入函数
- 2.6 Python的保留字与标识符
- 2.6.1 Python中的保留字
- 2.6.2 Python的标识符
- 2.7 Python的变量
- 2.8 Python的基本数据类型
- 2.9 Python的数据运算符
- 2.10 Python序列的概念及通用操作
- 2.10.1 索引
- 2.10.2 切片
- 2.10.3 相加
- 2.10.4 相乘
- 2.10.5 元素检查
- 2.10.6 与序列相关的内置函数
- 2.11 Python列表
- 2.11.1 列表的基本操作
- 2.11.2 列表元素的基本操作
- 2.12 Python元组
- 2.12.1 元组的基本操作
- 2.12.2 元组元素的基本操作
- 2.13 Python字典
- 2.13.1 字典的基本操作
- 2.13.2 字典元素的基本操作
- 2.14 Python集合
- 2.15 Python字符串
- 2.16 习题
- 第3章 数据清洗
- 3.1 Python数据清洗基础
- 3.1.1 Python函数与模块
- 3.1.2 numpy模块数组
- 3.1.3 pandas模块序列
- 3.1.4 pandas模块数据框
- 3.1.5 Python流程控制语句
- 3.2 Python数据读取、合并、写入
- 3.2.1 读取、合并、写入文本文件(CSV或者TXT)
- 3.2.2 读取、合并、写入Excel数据文件
- 3.2.3 读取、合并、写入Stata数据文件
- 3.2.4 读取、合并SPSS数据文件
- 3.3 Python数据检索
- 3.4 Python数据行列处理
- 3.4.1 删除变量列、样本行
- 3.4.2 更改变量的列名称、调整变量列顺序
- 3.4.3 改变列的数据格式
- 3.4.4 多列转换
- 3.4.5 数据百分比格式转换
- 3.5 Python数据缺失值处理
- 3.5.1 查看数据集中的缺失值
- 3.5.2 填充数据集中的缺失值
- 3.5.3 删除数据集中的缺失值
- 3.6 Python数据重复值处理
- 3.6.1 查看数据集中的重复值
- 3.6.2 删除数据集中的重复值
- 3.7 Python数据异常值处理
- 3.7.1 运用3δ准则检测异常值
- 3.7.2 绘制箱图检测异常值
- 3.7.3 删除异常值
- 3.7.4 3δ准则替换异常值
- 3.7.5 1%/99%分位数替换异常值
- 3.8 Python数据透视表、描述性分析和交叉表分析
- 3.8.1 数据透视表
- 3.8.2 描述性分析
- 3.8.3 交叉表分析
- 3.9 习题
- 第4章 特征选择
- 4.1 特征选择的概念、原则及方法
- 4.1.1 特征选择的概念
- 4.1.2 特征选择的原则
- 4.1.3 特征选择的方法
- 4.2 过滤法
- 4.3 过滤法
- 4.3.1 卡方检验
- 4.3.2 相关性分析
- 4.3.3 方差分析(F检验)
- 4.3.4 互信息
- 4.4 包裹法
- 4.5 嵌入法
- 4.5.1 随机森林算法选择特征变量
- 4.5.2 提升法算法选择特征变量
- 4.5.3 Logistic回归算法选择特征变量
- 4.5.4 线性支持向量机算法选择特征变量
- 4.6 习题
- 第5章 特征处理
- 5.1 特征归一化、特征标准化、样本归一化
- 5.1.1 特征归一化
- 5.1.2 特征标准化
- 5.1.3 样本归一化
- 5.2 特征等宽分箱和等频分箱
- 5.3 特征决策树分箱
- 5.3.1 信息熵
- 5.3.2 信息增益
- 5.3.3 增益比率
- 5.3.4 基尼指数
- 5.3.5 变量重要性
- 5.3.6 特征决策树分箱的Python实现
- 5.4 特征卡方分箱
- 5.5 WOE(证据权重)和IV(信息价值)
- 5.5.1 WOE和IV的概念
- 5.5.2 WOE的作用
- 5.5.3 WOE编码注意事项
- 5.5.4 IV的作用
- 5.5.5 为什么使用IV而不是WOE来判断特征变量的预测能力
- 5.6 WOE、IV的Python实现
- 5.6.1 载入分析所需要的模块和函数
- 5.6.2 数据读取及观察
- 5.6.3 描述性统计分析
- 5.6.4 特征变量筛选
- 5.6.5 划分训练样本和测试样本
- 5.6.6 分箱操作
- 5.6.7 画分箱图
- 5.6.8 调整分箱
- 5.6.9 将训练样本和测试样本进行WOE编码
- 5.6.10 构建Logistic模型进行预测
- 5.6.11 模型预测及评价
- 5.6.12 绘制ROC曲线,计算AUC值
- 5.7 习题
- 第6章 特征提取
- 6.1 无监督降维技术
- 6.1.1 主成分分析的基本原理
- 6.1.2 主成分分析的数学概念
- 6.1.3 主成分的特征值
- 6.1.4 样本的主成分得分
- 6.1.5 主成分载荷
- 6.1.6 主成分分析的Python实现
- 6.2 有监督降维技术
- 6.2.1 线性判别分析的基本原理
- 6.2.2 线性判别分析的算法过程
- 6.2.3 线性判别分析的Python实现
- 6.3 习题
- 第7章 数据可视化
- 7.1 四象限图
- 7.1.1 四象限图简介
- 7.1.2 案例数据介绍
- 7.1.3 Python代码示例
- 7.2 热力图
- 7.2.1 热力图简介
- 7.2.2 案例数据介绍
- 7.2.3 Python代码示例
- 7.3 直方图
- 7.3.1 直方图简介
- 7.3.2 案例数据介绍
- 7.3.3 Python代码示例
- 7.4 条形图、核密度图和正态QQ图
- 7.4.1 条形图、核密度图和正态QQ图简介
- 7.4.2 案例数据介绍
- 7.4.3 Python代码示例
- 7.5 散点图
- 7.5.1 散点图简介
- 7.5.2 案例数据介绍
- 7.5.3 Python代码示例
- 7.6 线图(含时间序列趋势图)
- 7.6.1 线图(含时间序列趋势图)简介
- 7.6.2 案例数据介绍
- 7.6.3 Python代码示例
- 7.7 双纵轴线图
- 7.7.1 双纵轴线图简介
- 7.7.2 案例数据介绍
- 7.7.3 Python代码示例
- 7.8 回归拟合图
- 7.8.1 回归拟合图简介
- 7.8.2 案例数据介绍
- 7.8.3 Python代码示例
- 7.9 箱图
- 7.9.1 箱图简介
- 7.9.2 案例数据介绍
- 7.9.3 Python代码示例
- 7.10 小提琴图
- 7.10.1 小提琴图简介
- 7.10.2 案例数据介绍
- 7.10.3 Python代码示例
- 7.11 联合分布图
- 7.11.1 联合分布图简介
- 7.11.2 案例数据介绍
- 7.11.3 Python代码示例
- 7.12 雷达图
- 7.12.1 雷达图简介
- 7.12.2 案例数据介绍
- 7.12.3 Python代码示例
- 7.13 饼图
- 7.13.1 饼图简介
- 7.13.2 案例数据介绍
- 7.13.3 Python代码示例
- 7.14 习题
- 第8章 数据挖掘与建模1
- 8.1 基本思想
- 8.1.1 线性回归算法的概念及数学解释
- 8.1.2 线性回归算法的优点
- 8.1.3 线性回归算法的缺点
- 8.2 应用案例
- 8.2.1 数据挖掘与建模思路
- 8.2.2 数据文件介绍
- 8.2.3 导入分析所需要的模块和函数
- 8.2.4 数据读取及观察
- 8.3 使用smf进行线性回归
- 8.3.1 使用smf进行线性回归
- 8.3.2 多重共线性检验
- 8.3.3 解决多重共线性问题
- 8.3.4 绘制拟合回归平面
- 8.4 使用sklearn进行线性回归
- 8.4.1 使用验证集法进行模型拟合
- 8.4.2 更换随机数种子,使用验证集法进行模型拟合
- 8.4.3 使用10折交叉验证法进行模型拟合
- 8.4.4 使用10折重复10次交叉验证法进行模型拟合
- 8.4.5 使用留一交叉验证法进行模型拟合
- 8.5 习题
- 第9章 数据挖掘与建模2
- 9.1 基本思想
- 9.1.1 Logistic回归算法的概念及数学解释
- 9.1.2 “分类问题监督式学习”的性能度量
- 9.2 应用案例
- 9.2.1 数据文件介绍
- 9.2.2 导入分析所需要的模块和函数
- 9.2.3 数据读取及观察
- 9.3 描述性分析
- 9.4 数据处理
- 9.4.1 区分分类特征和连续特征并进行处理
- 9.4.2 将样本全集分割为训练样本和测试样本
- 9.5 建立二元Logistic回归算法模型
- 9.5.1 使用statsmodels建立二元Logistic回归算法模型
- 9.5.2 使用sklearn建立二元Logistic回归算法模型
- 9.5.3 特征变量重要性水平分析
- 9.5.4 绘制ROC曲线,计算AUC值
- 9.5.5 计算科恩kappa得分
- 9.6 习题
- 第10章 数据挖掘与建模3
- 10.1 基本思想
- 10.1.1 决策树算法的概念与原理
- 10.1.2 决策树的剪枝
- 10.1.3 包含剪枝决策树的损失函数
- 10.2 数据准备
- 10.2.1 案例数据说明
- 10.2.2 导入分析所需要的模块和函数
- 10.3 分类问题决策树算法示例
- 10.3.1 变量设置及数据处理
- 10.3.2 未考虑成本-复杂度剪枝的决策树分类算法模型
- 10.3.3 考虑成本-复杂度剪枝的决策树分类算法模型
- 10.3.4 绘制图形观察叶节点总不纯度随alpha值的变化情况
- 10.3.5 绘制图形观察节点数和树的深度随alpha值的变化情况
- 10.3.6 绘制图形观察训练样本和测试样本的预测准确率随alpha值的变化情况
- 10.3.7 通过10折交叉验证法寻求最优alpha值
- 10.3.8 决策树特征变量重要性水平分析
- 10.3.9 绘制ROC曲线
- 10.3.10 运用两个特征变量绘制决策树算法决策边界图
- 10.4 回归问题决策树算法示例
- 10.4.1 变量设置及数据处理
- 10.4.2 未考虑成本-复杂度剪枝的决策树回归算法模型
- 10.4.3 考虑成本-复杂度剪枝的决策树回归算法模型
- 10.4.4 绘制图形观察叶节点总均方误差随alpha值的变化情况
- 10.4.5 绘制图形观察节点数和树的深度随alpha值的变化情况
- 10.4.6 绘制图形观察训练样本和测试样本的拟合优度随alpha值的变化情况
- 10.4.7 通过10折交叉验证法寻求最优alpha值并开展特征变量重要性水平分析
- 10.4.8 最优模型拟合效果图形展示
- 10.4.9 构建线性回归算法模型进行对比
- 10.5 习题
- 第11章 数据挖掘与建模4
- 11.1 随机森林算法的基本原理
- 11.1.1 模型融合的基本思想
- 11.1.2 集成学习的概念与分类
- 11.1.3 装袋法的概念与原理
- 11.1.4 随机森林算法的概念与原理
- 11.1.5 随机森林算法特征变量重要性度量
- 11.1.6 部分依赖图与个体条件期望图
- 11.2 数据准备
- 11.2.1 案例数据说明
- 11.2.2 导入分析所需要的模块和函数
- 11.3 分类问题随机森林算法示例
- 11.3.1 变量设置及数据处理
- 11.3.2 二元Logistic回归和单棵分类决策树算法
- 11.3.3 装袋法分类算法
- 11.3.4 随机森林分类算法
- 11.3.5 寻求max_features最优参数
- 11.3.6 寻求n_estimators最优参数
- 11.3.7 随机森林特征变量重要性水平分析
- 11.3.8 绘制部分依赖图与个体条件期望图
- 11.3.9 模型性能评价
- 11.3.10 绘制ROC曲线
- 11.3.11 运用两个特征变量绘制随机森林算法决策边界图
- 11.4 回归问题随机森林算法示例
- 11.4.1 变量设置及数据处理
- 11.4.2 线性回归、单棵回归决策树算法
- 11.4.3 装袋法回归算法
- 11.4.4 随机森林回归算法
- 11.4.5 寻求max_features最优参数
- 11.4.6 寻求n_estimators最优参数
- 11.4.7 随机森林特征变量重要性水平分析
- 11.4.8 绘制部分依赖图与个体条件期望图
- 11.4.9 最优模型拟合效果图形展示
- 11.5 习题
- 第12章 数据挖掘与建模5
- 12.1 神经网络算法的基本原理
- 12.1.1 神经网络算法的基本思想
- 12.1.2 感知机
- 12.1.3 多层感知机
- 12.1.4 神经元激活函数
- 12.1.5 误差反向传播算法(BP算法)
- 12.1.6 万能近似定理及多隐藏层优势
- 12.1.7 BP算法过拟合问题的解决
- 12.2 数据准备
- 12.2.1 案例数据说明
- 12.2.2 导入分析所需要的模块和函数
- 12.3 回归神经网络算法示例
- 12.3.1 变量设置及数据处理
- 12.3.2 单隐藏层的多层感知机算法
- 12.3.3 神经网络特征变量重要性水平分析
- 12.3.4 绘制部分依赖图与个体条件期望图
- 12.3.5 拟合优度随神经元个数变化的可视化展示
- 12.3.6 通过K折交叉验证寻求单隐藏层最优神经元个数
- 12.3.7 双隐藏层的多层感知机算法
- 12.3.8 最优模型拟合效果图形展示
- 12.4 二分类神经网络算法示例
- 12.4.1 变量设置及数据处理
- 12.4.2 单隐藏层二分类问题神经网络算法
- 12.4.3 双隐藏层二分类问题神经网络算法
- 12.4.4 早停策略减少过拟合问题
- 12.4.5 正则化(权重衰减)策略减少过拟合问题
- 12.4.6 模型性能评价
- 12.4.7 绘制ROC曲线
- 12.4.8 运用两个特征变量绘制二分类神经网络算法决策边界图
- 12.5 习题
- 第13章 数据挖掘与建模6
- 13.1 RFM分析的基本原理
- 13.1.1 RFM分析的基本思想
- 13.1.2 RFM分类组合与客户类型对应情况
- 13.1.3 不同类型客户的特点及市场营销策略
- 13.2 数据准备
- 13.2.1 案例数据说明
- 13.2.2 导入分析所需要的模块和函数
- 13.3 RFM分析示例
- 13.3.1 数据读取及观察
- 13.3.2 计算R、F、M分值
- 13.3.3 生成RFM数据集
- 13.3.4 不同类别客户数量分析
- 13.3.5 不同类别客户消费金额分析
- 13.4 习题
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。