展开全部

主编推荐语

本书将统计理论、实践和常识有机地融合在一起,基于SAS系统介绍统计数据挖掘和机器学习数据挖掘技术。

内容简介

本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。

本书在第2版的基础上新增了13章,内容涵盖数据科学发展历程、市场份额估算、无抽样调研数据预测钱包份额、潜在市场细分、利用缺失数据构建统计回归模型、十分位分析评估数据的预测能力,以及一个无须精通自然语言处理就能使用的文本挖掘工具。

目录

  • 版权信息
  • 第3版前言
  • 第2版前言
  • 致谢
  • 关于作者
  • 第1章 引论
  • 1.1 个人计算机与统计学
  • 1.2 统计学和数据分析
  • 1.3 EDA简介
  • 1.4 EDA范式
  • 1.5 EDA的弱点
  • 1.6 小数据和大数据
  • 1.6.1 数据规模特征
  • 1.6.2 数据规模:个人观点
  • 1.7 数据挖掘范式
  • 1.8 统计学和机器学习
  • 1.9 统计数据挖掘
  • 参考资料
  • 第2章 数据处理相关学科:统计学和数据科学
  • 2.1 引言
  • 2.2 背景
  • 2.3 统计学与数据科学的比较
  • 2.4 讨论:统计学与数据科学的不同之处
  • 2.5 本章小结
  • 2.6 结语
  • 参考资料
  • 第3章 变量评估的两种基本数据挖掘方法
  • 3.1 引言
  • 3.2 相关系数
  • 3.3 散点图
  • 3.4 数据挖掘
  • 3.4.1 示例3.1
  • 3.4.2 示例3.2
  • 3.5 平滑散点图
  • 3.6 一般关联性检验
  • 3.7 本章小结
  • 参考资料
  • 第4章 用于评估成对变量的基于CHAID的数据挖掘方法
  • 4.1 引言
  • 4.2 散点图
  • 4.3 平滑散点图
  • 4.4 CHAID入门
  • 4.5 用更平滑的散点图进行基于CHAID的数据挖掘
  • 4.6 本章小结
  • 参考资料
  • 第5章 校直数据的简单性和可取性对建模十分重要
  • 5.1 引言
  • 5.2 数据的直度和对称度
  • 5.3 数据挖掘是高级概念
  • 5.4 相关系数
  • 5.5 (xx3,yy3)散点图
  • 5.6 挖掘(xx3,yy3)关系
  • 5.7 基于遗传算法的数据挖掘如何处理数据
  • 5.8 校直多个变量
  • 5.9 本章小结
  • 参考资料
  • 第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法
  • 6.1 引言
  • 6.2 量度范围
  • 6.3 茎叶图
  • 6.4 箱线图
  • 6.5 排序数据对称处理方法的图示
  • 6.5.1 示例1
  • 6.5.2 示例2
  • 6.6 本章小结
  • 参考资料
  • 第7章 主成分分析:多变量评估的统计数据挖掘方法
  • 7.1 引言
  • 7.2 EDA重新表述范式
  • 7.3 关键点
  • 7.4 PCA基础
  • 7.5 示例详解
  • 7.6 PCA的代数特征
  • 7.7 一个不常见示例
  • 7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析
  • 7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析结果
  • 7.8 用PCA构造准交互变量
  • 7.9 本章小结
  • 第8章 市场份额估算:一个特殊的数据挖掘案例
  • 8.1 引言
  • 8.2 背景
  • 8.3 一个特殊的数据挖掘案例
  • 8.4 构建RAL的YUM市场份额模型
  • 8.4.1 市场份额模型的十分位分析
  • 8.4.2 YUM_3mos市场份额模型的结论
  • 8.5 本章小结
  • 附录8.A 生成PROMO_Code哑变量
  • 附录8.B PROMO_Code哑变量的PCA
  • 附录8.C PROMO_Code哑变量上的逻辑斯谛回归YUM_3mos
  • 附录8.D 生成YUM_3mos_wo_PROMO_CodeEff
  • 附录8.E 将变量标准化为位于[0,1]内
  • 参考资料
  • 第9章 相关系数在[-1,+1]内取值,是这样吗
  • 9.1 引言
  • 9.2 相关系数的基础知识
  • 9.3 计算相关系数
  • 9.4 重新配对
  • 9.5 计算经调整的相关系数
  • 9.6 重新配对的意义
  • 9.7 本章小结
  • 第10章 逻辑斯谛回归:回应建模方法
  • 10.1 引言
  • 10.2 逻辑斯谛回归模型
  • 10.2.1 示例
  • 10.2.2 为LRM打分
  • 10.3 案例分析
  • 10.4 logit值和logit散点图
  • 10.5 校直数据的重要性
  • 10.6 校直数据的重述
  • 10.6.1 幂阶梯法
  • 10.6.2 突起规则
  • 10.6.3 测量校直数据
  • 10.7 校直示例数据
  • 10.7.1 FD2_OPEN的重述
  • 10.7.2 INVESTMENT的重述
  • 10.8 在突起规则不适用的情况下选用的技术
  • 10.8.1 拟合logit值散点图
  • 10.8.2 平滑预测值与实际值散点图
  • 10.9 MOS_OPEN的重述
  • 10.10 评估变量的重要性
  • 10.10.1 计算G统计量
  • 10.10.2 单变量的重要性
  • 10.10.3 变量子集合的重要性
  • 10.10.4 不同变量子集合的重要性比较
  • 10.11 案例的重要变量
  • 10.12 变量的相对重要性
  • 10.13 案例变量的最佳子集合
  • 10.14 模型预测准确性的可视化指标
  • 10.14.1 得分组的平滑残差散点图
  • 10.14.2 基于十分位组的平滑预测与实际值散点图
  • 10.14.3 基于得分组的平滑预测与实际值散点图
  • 10.15 评估数据挖掘工作
  • 10.15.1 基于得分组的平滑残差分布图:EDA模型与非EDA模型对比
  • 10.15.2 基于十分位组的平滑预测与实际值散点图:EDA模型与非EDA模型对比
  • 10.15.3 基于得分组的平滑预测与实际值散点图:EDA模型与非EDA模型对比
  • 10.15.4 数据挖掘工作小结
  • 10.16 平滑一个类别变量
  • 10.16.1 用CHAID平滑FD_TYPE
  • 10.16.2 CH_FTY_1和CH_FTY_2的重要性
  • 10.17 本案例的其他数据挖掘工作
  • 10.17.1 基于得分组的平滑残差散点图:4变量EDA模型与3变量EDA模型对比
  • 10.17.2 基于十分位组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比
  • 10.17.3 基于得分组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比
  • 10.17.4 其他数据挖掘工作的总结
  • 10.18 本章小结
  • 第11章 无抽样调研数据预测钱包份额
  • 11.1 引言
  • 11.2 背景
  • 11.3 SOW_q计算过程
  • 11.3.1 有趣的问题
  • 11.3.2 金额和总金额
  • 11.4 为AMPECS构建SOW_q模型
  • 11.5 SOW_q模型的定义
  • 11.6 本章小结
  • 附录11.A 六步法
  • 附录11.B 七步法
  • 参考资料
  • 第12章 普通回归:利润建模的强大工具
  • 12.1 引言
  • 12.2 普通回归模型
  • 12.2.1 说明
  • 12.2.2 为OLS利润模型评分
  • 12.3 迷你案例
  • 12.3.1 校直迷你案例的数据
  • 12.3.2 平滑预测值散点图与实际值散点图
  • 12.3.3 评估变量的重要性
  • 12.4 迷你案例的重要变量
  • 12.4.1 变量的相对重要性
  • 12.4.2 选择最佳子集合
  • 12.5 案例变量的最佳子集合
  • 12.5.1 用gINCOME和AGE构建PROFIT模型
  • 12.5.2 最佳PROFIT模型
  • 12.6 抑制变量AGE
  • 12.7 本章小结
  • 参考资料
  • 第13章 回归变量选择方法:可忽略的问题和重要解决方案
  • 13.1 引言
  • 13.2 背景
  • 13.3 常用的变量选择方法
  • 13.4 分步法的缺陷
  • 13.5 改进的变量选择方法
  • 13.6 本章小结
  • 参考资料
  • 第14章 用CHAID解读逻辑斯谛回归模型
  • 14.1 引言
  • 14.2 逻辑斯谛回归模型
  • 14.3 数据库营销回应模型案例研究
  • 14.4 CHAID
  • 14.5 多变量CHAID树
  • 14.6 CHAID市场细分
  • 14.7 CHAID树状图
  • 14.8 本章小结
  • 第15章 回归系数的重要性
  • 15.1 引言
  • 15.2 普通回归模型
  • 15.3 四个问题
  • 15.4 重要预测变量
  • 15.5 p值与大数据
  • 15.6 回到问题1
  • 15.7 预测变量对预测结果的影响
  • 15.8 提示
  • 15.9 回到问题2
  • 15.10 按照对预测的影响对预测变量排序
  • 15.11 回到问题3
  • 15.12 回到问题4
  • 15.13 本章小结
  • 参考资料
  • 第16章 相关系数均值:评估预测模型和预测变量重要性的统计数据挖掘指标
  • 16.1 引言
  • 16.2 背景
  • 16.3 可靠度和效度的区别
  • 16.4 可靠度和效度的关系
  • 16.5 平均相关系数
  • 16.5.1 图示LTV5模型的平均相关系数
  • 16.5.2 LTV5模型的平均相关系数
  • 16.5.3 LTV5模型比较
  • 16.6 本章小结
  • 参考资料
  • 第17章 交互变量指定CHAID模型
  • 17.1 引言
  • 17.2 交互变量
  • 17.3 交互变量建模策略
  • 17.4 基于特殊点的策略
  • 17.5 交互变量的回应模型示例
  • 17.6 用CHAID找出关系
  • 17.7 指定模型的CHAID
  • 17.8 探索
  • 17.9 数据库含义
  • 17.10 本章小结
  • 参考资料
  • 第18章 市场细分:逻辑斯谛回归建模
  • 18.1 引言
  • 18.2 二值逻辑斯谛回归
  • 18.3 多分类逻辑斯谛回归模型
  • 18.4 使用PLR建模
  • 18.5 市场细分的分类模型
  • 18.5.1 移动电话用户调研
  • 18.5.2 CHAID分析
  • 18.5.3 CHAID树状图
  • 18.5.4 市场细分分类模型
  • 18.6 本章小结
  • 第19章 市场细分:时间序列数据LCA
  • 19.1 引言
  • 19.2 背景
  • 19.2.1 k均值聚类分析
  • 19.2.2 主成分分析
  • 19.2.3 因素分析
  • 19.2.4 LCA与FA图示
  • 19.3 LCA
  • 19.4 LCA与k均值聚类分析
  • 19.5 用LCA对时间序列数据进行市场细分
  • 19.5.1 目标
  • 19.5.2 最佳LCA模型
  • 19.6 本章小结
  • 附录19.A 建立UNITS的趋势3
  • 附录19.B POS-ZER-NEG建立趋势4
  • 参考资料
  • 第20章 市场细分:理解细分群体的便捷途径
  • 20.1 引言
  • 20.2 背景
  • 20.3 示例
  • 20.4 解读各个细分市场
  • 20.5 本章小结
  • 附录20.A SAMPLE数据集
  • 附录20.B 分类变量的均值
  • 附录20.C 指数化数据
  • 参考资料
  • 第21章 统计回归模型:理解模型的简单方法
  • 21.1 引言
  • 21.2 背景
  • 21.3 用于逻辑斯谛回归模型的EZ法
  • 21.4 逻辑斯谛回归的EZ法示例的讨论
  • 21.5 本章小结
  • 附录21.A 基于M65分布的X10~X14均值
  • 附录21.B 建立10个数据集(每个十分位区间一个)
  • 附录21.C 十分位的指数化信息
  • 第22章 CHAID:填充缺失值的方法
  • 22.1 引言
  • 22.2 数据缺失问题
  • 22.3 与数据缺失相关的假设
  • 22.4 CHAID填充法
  • 22.5 示例
  • 22.5.1 连续变量的CHAID均值填充
  • 22.5.2 面向连续变量的大量缺失值CHAID均值填充
  • 22.5.3 LIFE_DOL的回归树填充
  • 22.6 CHAID面向单个类别变量的最大似然类别填充
  • 22.6.1 填充性别变量的CHAID最大似然类别法
  • 22.6.2 填充性别变量的分类树法
  • 22.7 本章小结
  • 参考资料
  • 第23章 大数据建模
  • 23.1 引言
  • 23.2 背景
  • 23.3 CCA-PCA分析法:具体案例
  • 23.4 用完整数据集构建回应模型
  • 23.5 用不完整数据集构建回应模型
  • 23.6 基于PCA-BICA数据构建回应模型
  • 23.6.1 基于主成分分析并经二值转换的不完整数据回应模型分析结果
  • 23.6.2 综合CCA与PCA-BICA的回应模型结果
  • 23.7 本章小结
  • 附录23.A NMISS
  • 附录23.B 测试完整样本分析法的样本大小
  • 附录23.C CCA-CIA数据集
  • 附录23.D 1和0
  • 参考资料
  • 第24章 艺术、科学、数字和诗歌
  • 24.1 引言
  • 24.2 零和一
  • 24.3 思考的力量
  • 24.4 统计黄金法则:衡量统计实践的艺术和科学
  • 24.5 本章小结
  • 参考资料
  • 第25章 识别最佳客户:描述性、预测性和相似性描述
  • 25.1 引言
  • 25.2 相关概念
  • 25.3 对有缺陷的客户进行描述
  • 25.4 清晰有效的客户定位
  • 25.5 预测性分析
  • 25.6 连续变量树状图
  • 25.7 相似人群扩展分析
  • 25.8 相似树状图的特点
  • 25.9 本章小结
  • 第26章 营销模型评估
  • 26.1 引言
  • 26.2 回应模型的准确度
  • 26.3 利润模型的准确度
  • 26.4 回应模型的十分位分析与累积提升度
  • 26.5 利润模型的十分位分析与累积提升度
  • 26.6 回应模型的精确度
  • 26.7 利润模型的精确度
  • 26.8 回应模型和利润模型的分离性
  • 26.9 累积提升度、HL/SWMAD指数以及离散系数的应用指南
  • 26.10 本章小结
  • 第27章 十分位分析:视角与效果
  • 27.1 引言
  • 27.2 背景
  • 27.3 性能评估:回应模型与随机选择
  • 27.4 性能评估:十分位分析
  • 27.5 本章小结
  • 附录27.A 计算准确度收益:模型与随机
  • 附录27.B 计算精确度收益:模型与随机
  • 附录27.C 回应模型PROB_est值的十分位分析
  • 附录27.D 2×2十分位表
  • 参考资料
  • 第28章 T-C净提升度模型:评估试验组与对照组的营销效果
  • 28.1 引言
  • 28.2 背景
  • 28.3 试验营销与对照营销回应模型的建模
  • 28.3.1 试验组回应模型建模
  • 28.3.2 对照组回应模型建模
  • 28.4 T-C净提升度模型
  • 28.5 本章小结
  • 附录28.A 用Xs做TEST Logistic
  • 附录28.B 用Xs做CONTROL Logistic
  • 附录28.C 合并计算
  • 附录28.D T-C净提升度十分位分析
  • 参考资料
  • 第29章 自助法在营销中的应用:一种新的模型验证方法
  • 29.1 引言
  • 29.2 传统模型验证
  • 29.3 示例
  • 29.4 三个问题
  • 29.5 自助法
  • 29.6 如何使用自助法
  • 29.7 自助法十分位分析验证
  • 29.8 其他问题
  • 29.9 用自助法评估模型性能
  • 29.10 用自助法评估模型效力
  • 29.11 本章小结
  • 参考资料
  • 第30章 用自助法验证逻辑斯谛回归模型
  • 30.1 引言
  • 30.2 逻辑斯谛回归模型
  • 30.3 如何用自助法进行验证
  • 30.4 本章小结
  • 参考资料
  • 第31章 营销模型可视化:用数据深度挖掘模型
  • 31.1 引言
  • 31.2 图形简史
  • 31.3 星形图基础
  • 31.4 单变量星形图
  • 31.5 多变量星形图
  • 31.6 剖面曲线法
  • 31.6.1 剖面曲线基础
  • 31.6.2 剖面分析
  • 31.7 示例
  • 31.7.1 回应模型的剖面曲线
  • 31.7.2 十分位组剖面曲线
  • 31.8 本章小结
  • 附录31.A 十分位各人口变量的星形图
  • 附录31.B 人口变量各十分位的星形图
  • 附录31.C 剖面曲线:各十分位
  • 参考资料
  • 第32章 预测贡献系数:预测重要性的度量
  • 32.1 引言
  • 32.2 背景
  • 32.3 判定规则示例
  • 32.4 预测贡献系数
  • 32.5 预测贡献系数的计算
  • 32.6 预测贡献系数的另一示例
  • 32.7 本章小结
  • 参考资料
  • 第33章 建模是艺术、科学与诗的结合
  • 33.1 引言
  • 33.2 灵感来源于莎士比亚的诗
  • 33.3 解读
  • 33.4 本章小结
  • 参考资料
  • 第34章 献给数据狂的数据分析12步法
  • 34.1 引言
  • 34.2 背景
  • 34.3 步骤
  • 34.4 标记
  • 34.5 本章小结
  • 附录34.A 数据集IN
  • 附录34.B Samsize+
  • 附录34.C 可粘贴副本
  • 附录34.D 缺失数据
  • 参考资料
  • 第35章 遗传回归模型与统计回归模型
  • 35.1 引言
  • 35.2 背景
  • 35.3 目标
  • 35.4 GenIQ模型:遗传逻辑斯谛回归
  • 35.5 遗传编程法的发展
  • 35.6 GenIQ模型的目标及重要特性
  • 35.7 GenIQ模型工作原理
  • 35.8 本章小结
  • 参考资料
  • 第36章 数据重用:GenIQ模型的强大数据挖掘技术
  • 36.1 引言
  • 36.2 数据重用
  • 36.3 示例
  • 36.3.1 GenIQ利润模型
  • 36.3.2 数据重用变量简介
  • 36.3.3 数据重用变量GenIQvar_1和GenIQvar_2
  • 36.4 调整数据重用定义:GenIQ强化版回归模型
  • 36.5 本章小结
  • 第37章 数据挖掘技术——离群值的调整
  • 37.1 引言
  • 37.2 背景
  • 37.3 离群值的调整
  • 37.3.1 调整离群值的示例
  • 37.3.2 GenIQ模型在调整离群值中的作用
  • 37.4 本章小结
  • 参考资料
  • 第38章 过拟合的全新解决方案
  • 38.1 引言
  • 38.2 背景
  • 38.3 利用GenIQ模型解决过拟合问题
  • 38.3.1 RANDOM_SPLIT的GenIQ模型
  • 38.3.2 RANDOM_SPLIT的GenIQ模型十分位分析
  • 38.3.3 类N层分析
  • 38.4 本章小结
  • 第39章 回顾:为何校直数据如此重要
  • 39.1 引言
  • 39.2 重申校直数据的重要性
  • 39.3 回顾:重述收入变量
  • 39.4 回顾:挖掘(xx3,yy3)关系
  • 39.5 本章小结
  • 第40章 GenIQ模型的定义与应用
  • 40.1 引言
  • 40.2 何为优化
  • 40.3 何为遗传建模
  • 40.4 遗传建模示例
  • 40.4.1 复制
  • 40.4.2 交叉
  • 40.4.3 突变
  • 40.5 控制遗传模型运行的参数
  • 40.6 遗传建模的优势与限制
  • 40.7 营销建模的目标
  • 40.8 GenIQ回应模型
  • 40.9 GenIQ利润模型
  • 40.10 案例研究:回应模型
  • 40.11 案例研究:利润模型
  • 40.12 本章小结
  • 参考资料
  • 第41章 如何为营销模型选择最佳变量
  • 41.1 引言
  • 41.2 背景
  • 41.3 变量选择方法的缺陷
  • 41.4 营销模型的目标
  • 41.5 用GenIQ进行变量选择
  • 41.5.1 GenIQ建模
  • 41.5.2 GenIQ模型结构的辨别
  • 41.5.3 GenIQ模型变量选择
  • 41.6 逻辑斯谛回归模型的非线性替代方法
  • 41.7 本章小结
  • 参考资料
  • 第42章 解读无系数模型
  • 42.1 引言
  • 42.2 线性回归系数
  • 42.2.1 简单普通回归模型示例
  • 42.2.2 简单逻辑斯谛回归模型示例
  • 42.3 简单回归模型的准回归系数
  • 42.3.1 简单回归模型的准回归系数示例
  • 42.3.2 简单逻辑斯谛回归模型的准回归系数示例
  • 42.3.3 非线性预测中的准回归系数示例
  • 42.4 偏准回归系数
  • 42.4.1 普适型偏回归系数的计算方法
  • 42.4.2 多元逻辑斯谛回归模型示例
  • 42.5 无系数模型的准回归系数
  • 42.6 本章小结
  • 第43章 文本挖掘:入门、示例及TXTDM软件
  • 43.1 引言
  • 43.2 背景
  • 43.3 文本挖掘入门
  • 43.4 与文本相关的统计量
  • 43.5 文本转换中的二进制数据集
  • 43.6 TXTDM文本挖掘程序示例
  • 43.7 对文本挖掘模型GenIQ_FAVORED的分析
  • 43.7.1 用文字描述更喜欢GenIQ模型的受访者
  • 43.7.2 用文字描述更喜欢其他两种模型的受访者
  • 43.8 对TXTDM程序加权
  • 43.9 文档聚类
  • 43.10 本章小结
  • 附录43.A 加载Corpus TEXT数据集
  • 附录43.B 创建二进制词的中间步骤
  • 附录43.C 创建最终的二进制词
  • 附录43.D 计算统计量TF、DF、NUM_DOCS和N
  • 附录43.E 将GenIQ_FAVORED加入WORDS数据集
  • 附录43.F GenIQ_FAVORED的逻辑斯谛分析模型
  • 附录43.G 计算字词之间的关系数均值
  • 附录43.H 创建TF-IDF
  • 附录43.I 用WORDS和TF-IDF的Concat计算WORD_TF-IDF权重
  • 附录43.J WORD_RESP与WORD_TF-IDF RESP
  • 附录43.K 词干提取
  • 附录43.L WORD乘以TF-IDF
  • 附录43.M 用剖面的字词对数据集赋权
  • 附录43.N 两类法VARCLUS
  • 附录43.O 双集群法VARCLUS
  • 附录43.P 集群1字词的指向
  • 附录43.Q 比较GenIQ模型和随机模型的表现
  • 附录43.R 比较自由集群模型和随机模型的表现
  • 参考资料
  • 第44章 一些我比较喜欢的统计子程序
  • 44.1 子程序列表
  • 44.2 第5章的(平均值和中位数)——X1和X2
  • 44.3 第10章的平滑散点图——logit值和概率
  • 44.4 第16章的平均相关系数——变量Var1、Var2、Var3
  • 44.5 第29章的自助法十分位分析——数据来自表23.4(表44.2)
  • 44.6 第42章的H幅度共有区域
  • 44.7 选项排序、垂直输出的相关性分析
  • 44.8 回应模型十分位分析
  • 44.9 利润模型十分位分析
  • 44.10 平滑时间序列分析数据(三变量的动态中位数)
  • 44.11 大量高偏度变量的分析
  • 译后记
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。