展开全部

主编推荐语

系统梳理数据科学中的核心统计学概念。同时提供python和R代码作为参考。

内容简介

本书解释了数据科学中至关重要的统计学概念,并介绍了如何将各种统计方法应用于数据科学。

作者以通俗易懂、分门别类的方式,阐释了统计学中与数据科学相关的关键概念,并解释了各统计学概念在数据科学中的重要性及有用程度。第2版在第1版的基础上加入了更多以Python和R编写的示例,更清楚地阐释了如何将统计方法用于数据科学。

目录

  • 版权信息
  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 献词
  • 前言
  • 第1章 探索性数据分析
  • 1.1 结构化数据的要素
  • 扩展阅读
  • 1.2 矩形数据
  • 1.2.1 数据框和索引
  • 1.2.2 非矩形数据结构
  • 1.2.3 扩展阅读
  • 1.3 位置估计
  • 1.3.1 均值
  • 1.3.2 中位数和健壮的估计
  • 1.3.3 示例:人口和谋杀率的位置估计
  • 1.3.4 扩展阅读
  • 1.4 变异性估计
  • 1.4.1 标准差以及相关估计
  • 1.4.2 基于百分位数的估计
  • 1.4.3 示例:美国各州人口数量的变异性估计
  • 1.4.4 扩展阅读
  • 1.5 探索数据分布
  • 1.5.1 百分位数与箱线图
  • 1.5.2 频数表和直方图
  • 1.5.3 密度图和密度估计
  • 1.5.4 扩展阅读
  • 1.6 探索二元数据和分类型数据
  • 1.6.1 众数
  • 1.6.2 期望值
  • 1.6.3 概率
  • 1.6.4 扩展阅读
  • 1.7 相关性
  • 1.7.1 散点图
  • 1.7.2 扩展阅读
  • 1.8 探索两个及以上的变量
  • 1.8.1 六边形分箱图和等高线图(绘制数值型数据之间的关系)
  • 1.8.2 两个分类变量
  • 1.8.3 分类型数据和数值型数据
  • 1.8.4 多个变量的可视化
  • 1.8.5 扩展阅读
  • 1.9 小结
  • 第2章 数据与抽样分布
  • 2.1 随机抽样和样本偏差
  • 2.1.1 偏差
  • 2.1.2 随机选择
  • 2.1.3 数量和质量:什么时候数量更重要
  • 2.1.4 样本均值与总体均值
  • 2.1.5 扩展阅读
  • 2.2 选择偏差
  • 2.2.1 均值回归
  • 2.2.2 扩展阅读
  • 2.3 统计量的抽样分布
  • 2.3.1 中心极限定理
  • 2.3.2 标准误差
  • 2.3.3 扩展阅读
  • 2.4 Bootstrap方法
  • 2.4.1 重抽样与Bootstrap方法
  • 2.4.2 扩展阅读
  • 2.5 置信区间
  • 扩展阅读
  • 2.6 正态分布
  • 标准正态分布与QQ图
  • 2.7 长尾分布
  • 扩展阅读
  • 2.8 学生的t分布
  • 扩展阅读
  • 2.9 二项分布
  • 扩展阅读
  • 2.10 卡方分布
  • 扩展阅读
  • 2.11 F分布
  • 扩展阅读
  • 2.12 泊松及其相关分布
  • 2.12.1 泊松分布
  • 2.12.2 指数分布
  • 2.12.3 估计故障率
  • 2.12.4 韦布尔分布
  • 2.12.5 扩展阅读
  • 2.13 小结
  • 第3章 统计实验与显著性检验
  • 3.1 A/B测试
  • 3.1.1 为什么要有对照组
  • 3.1.2 为什么只有A/B,没有C/D……
  • 3.1.3 扩展阅读
  • 3.2 假设检验
  • 3.2.1 零假设
  • 3.2.2 备择假设
  • 3.2.3 单向假设检验与双向假设检验
  • 3.2.4 扩展阅读
  • 3.3 重抽样
  • 3.3.1 置换检验
  • 3.3.2 示例:Web黏性
  • 3.3.3 穷尽置换检验和Bootstrap置换检验
  • 3.3.4 置换检验:数据科学的底线
  • 3.3.5 扩展阅读
  • 3.4 统计显著性和p值
  • 3.4.1 p值
  • 3.4.2 α
  • 3.4.3 第一类错误和第二类错误
  • 3.4.4 数据科学与p值
  • 3.4.5 扩展阅读
  • 3.5 t检验
  • 扩展阅读
  • 3.6 多重检验
  • 扩展阅读
  • 3.7 自由度
  • 扩展阅读
  • 3.8 ANOVA
  • 3.8.1 F统计量
  • 3.8.2 双向ANOVA
  • 3.8.3 扩展阅读
  • 3.9 卡方检验
  • 3.9.1 卡方检验:一种重抽样方法
  • 3.9.2 卡方检验:统计理论
  • 3.9.3 费希尔精确检验
  • 3.9.4 与数据科学的关联
  • 3.9.5 扩展阅读
  • 3.10 多臂老虎机算法
  • 扩展阅读
  • 3.11 检验力与样本容量
  • 3.11.1 样本容量
  • 3.11.2 扩展阅读
  • 3.12 小结
  • 第4章 回归与预测
  • 4.1 简单线性回归
  • 4.1.1 回归方程
  • 4.1.2 拟合值与残差
  • 4.1.3 最小二乘法
  • 4.1.4 预测与解释(分析)
  • 4.1.5 扩展阅读
  • 4.2 多元线性回归
  • 4.2.1 示例:金县房屋数据
  • 4.2.2 模型评估
  • 4.2.3 交叉验证
  • 4.2.4 模型选择与逐步回归
  • 4.2.5 加权回归
  • 4.2.6 扩展阅读
  • 4.3 使用回归进行预测
  • 4.3.1 外推风险
  • 4.3.2 置信区间与预测区间
  • 4.4 回归中的因子变量
  • 4.4.1 虚拟变量的表示方法
  • 4.4.2 多水平因子变量
  • 4.4.3 有序因子变量
  • 4.5 解释回归方程
  • 4.5.1 相关的预测变量
  • 4.5.2 多重共线性
  • 4.5.3 混淆变量
  • 4.5.4 交互作用与主效应
  • 4.6 回归诊断
  • 4.6.1 离群点
  • 4.6.2 强影响值
  • 4.6.3 异方差、非正态与相关误差
  • 4.6.4 偏残差图与非线性
  • 4.7 多项式回归与样条回归
  • 4.7.1 多项式回归
  • 4.7.2 样条回归
  • 4.7.3 广义可加模型
  • 4.7.4 扩展阅读
  • 4.8 小结
  • 第5章 分类
  • 5.1 朴素贝叶斯算法
  • 5.1.1 为什么进行精确贝叶斯分类是不现实的
  • 5.1.2 朴素贝叶斯问题求解
  • 5.1.3 数值型预测变量
  • 5.1.4 扩展阅读
  • 5.2 判别分析
  • 5.2.1 协方差矩阵
  • 5.2.2 费希尔线性判别分析
  • 5.2.3 一个简单的例子
  • 5.2.4 扩展阅读
  • 5.3 逻辑回归
  • 5.3.1 逻辑响应函数和logit函数
  • 5.3.2 逻辑回归和广义线性模型
  • 5.3.3 广义线性模型
  • 5.3.4 逻辑回归的预测值
  • 5.3.5 系数和优势比的解释
  • 5.3.6 线性回归与逻辑回归:共性与差异
  • 5.3.7 评估模型
  • 5.3.8 扩展阅读
  • 5.4 分类模型评估
  • 5.4.1 混淆矩阵
  • 5.4.2 稀有类问题
  • 5.4.3 精确度、召回率和特异度
  • 5.4.4 ROC曲线
  • 5.4.5 AUC
  • 5.4.6 提升度
  • 5.4.7 扩展阅读
  • 5.5 非平衡数据的处理策略
  • 5.5.1 欠采样
  • 5.5.2 过采样与上(下)加权
  • 5.5.3 数据生成
  • 5.5.4 基于成本的分类
  • 5.5.5 探索预测结果
  • 5.5.6 扩展阅读
  • 5.6 小结
  • 第6章 统计机器学习
  • 6.1 KNN
  • 6.1.1 一个小例子:预测贷款违约
  • 6.1.2 距离的度量
  • 6.1.3 独热编码
  • 6.1.4 标准化(归一化,z分数)
  • 6.1.5 K 的选择
  • 6.1.6 KNN作为特征引擎
  • 6.2 树模型
  • 6.2.1 一个简单的例子
  • 6.2.2 递归分割算法
  • 6.2.3 测量同质性或不纯度
  • 6.2.4 让树停止生长
  • 6.2.5 预测连续的值
  • 6.2.6 如何使用树
  • 6.2.7 扩展阅读
  • 6.3 装袋法与随机森林
  • 6.3.1 装袋法
  • 6.3.2 随机森林
  • 6.3.3 变量的重要性
  • 6.3.4 超参数
  • 6.4 提升方法
  • 6.4.1 提升算法
  • 6.4.2 XGBoost
  • 6.4.3 正则化:避免过拟合
  • 6.4.4 超参数与交叉验证
  • 6.5 小结
  • 第7章 无监督学习
  • 7.1 主成分分析
  • 7.1.1 一个简单的例子
  • 7.1.2 计算主成分
  • 7.1.3 解释主成分
  • 7.1.4 对应分析
  • 7.1.5 扩展阅读
  • 7.2 K-均值聚类
  • 7.2.1 一个简单的例子
  • 7.2.2 K-均值算法
  • 7.2.3 簇的解释
  • 7.2.4 选择簇的数量
  • 7.3 层次聚类
  • 7.3.1 一个简单的例子
  • 7.3.2 树状图
  • 7.3.3 凝聚算法
  • 7.3.4 测量相异度
  • 7.4 基于模型的聚类
  • 7.4.1 多元正态分布
  • 7.4.2 混合正态分布
  • 7.4.3 选择簇的数量
  • 7.4.4 扩展阅读
  • 7.5 数据缩放与分类变量
  • 7.5.1 缩放变量
  • 7.5.2 主导变量
  • 7.5.3 分类数据和Gower距离
  • 7.5.4 混合数据聚类中的问题
  • 7.6 小结
  • 扩展阅读
  • 作者介绍
  • 封面介绍
  • 看完了
展开全部

评分及书评

评分不足
2个评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。