互联网
类型
可以朗读
语音朗读
394千字
字数
2021-09-01
发行日期
展开全部
主编推荐语
本书将统计理论、实践和常识有机地融合在一起,基于SAS系统介绍统计数据挖掘和机器学习数据挖掘技术。
内容简介
本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。
本书在第2版的基础上新增了13章,内容涵盖数据科学发展历程、市场份额估算、无抽样调研数据预测钱包份额、潜在市场细分、利用缺失数据构建统计回归模型、十分位分析评估数据的预测能力,以及一个无须精通自然语言处理就能使用的文本挖掘工具。
目录
- 版权信息
- 第3版前言
- 第2版前言
- 致谢
- 关于作者
- 第1章 引论
- 1.1 个人计算机与统计学
- 1.2 统计学和数据分析
- 1.3 EDA简介
- 1.4 EDA范式
- 1.5 EDA的弱点
- 1.6 小数据和大数据
- 1.6.1 数据规模特征
- 1.6.2 数据规模:个人观点
- 1.7 数据挖掘范式
- 1.8 统计学和机器学习
- 1.9 统计数据挖掘
- 参考资料
- 第2章 数据处理相关学科:统计学和数据科学
- 2.1 引言
- 2.2 背景
- 2.3 统计学与数据科学的比较
- 2.4 讨论:统计学与数据科学的不同之处
- 2.5 本章小结
- 2.6 结语
- 参考资料
- 第3章 变量评估的两种基本数据挖掘方法
- 3.1 引言
- 3.2 相关系数
- 3.3 散点图
- 3.4 数据挖掘
- 3.4.1 示例3.1
- 3.4.2 示例3.2
- 3.5 平滑散点图
- 3.6 一般关联性检验
- 3.7 本章小结
- 参考资料
- 第4章 用于评估成对变量的基于CHAID的数据挖掘方法
- 4.1 引言
- 4.2 散点图
- 4.3 平滑散点图
- 4.4 CHAID入门
- 4.5 用更平滑的散点图进行基于CHAID的数据挖掘
- 4.6 本章小结
- 参考资料
- 第5章 校直数据的简单性和可取性对建模十分重要
- 5.1 引言
- 5.2 数据的直度和对称度
- 5.3 数据挖掘是高级概念
- 5.4 相关系数
- 5.5 (xx3,yy3)散点图
- 5.6 挖掘(xx3,yy3)关系
- 5.7 基于遗传算法的数据挖掘如何处理数据
- 5.8 校直多个变量
- 5.9 本章小结
- 参考资料
- 第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法
- 6.1 引言
- 6.2 量度范围
- 6.3 茎叶图
- 6.4 箱线图
- 6.5 排序数据对称处理方法的图示
- 6.5.1 示例1
- 6.5.2 示例2
- 6.6 本章小结
- 参考资料
- 第7章 主成分分析:多变量评估的统计数据挖掘方法
- 7.1 引言
- 7.2 EDA重新表述范式
- 7.3 关键点
- 7.4 PCA基础
- 7.5 示例详解
- 7.6 PCA的代数特征
- 7.7 一个不常见示例
- 7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析
- 7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析结果
- 7.8 用PCA构造准交互变量
- 7.9 本章小结
- 第8章 市场份额估算:一个特殊的数据挖掘案例
- 8.1 引言
- 8.2 背景
- 8.3 一个特殊的数据挖掘案例
- 8.4 构建RAL的YUM市场份额模型
- 8.4.1 市场份额模型的十分位分析
- 8.4.2 YUM_3mos市场份额模型的结论
- 8.5 本章小结
- 附录8.A 生成PROMO_Code哑变量
- 附录8.B PROMO_Code哑变量的PCA
- 附录8.C PROMO_Code哑变量上的逻辑斯谛回归YUM_3mos
- 附录8.D 生成YUM_3mos_wo_PROMO_CodeEff
- 附录8.E 将变量标准化为位于[0,1]内
- 参考资料
- 第9章 相关系数在[-1,+1]内取值,是这样吗
- 9.1 引言
- 9.2 相关系数的基础知识
- 9.3 计算相关系数
- 9.4 重新配对
- 9.5 计算经调整的相关系数
- 9.6 重新配对的意义
- 9.7 本章小结
- 第10章 逻辑斯谛回归:回应建模方法
- 10.1 引言
- 10.2 逻辑斯谛回归模型
- 10.2.1 示例
- 10.2.2 为LRM打分
- 10.3 案例分析
- 10.4 logit值和logit散点图
- 10.5 校直数据的重要性
- 10.6 校直数据的重述
- 10.6.1 幂阶梯法
- 10.6.2 突起规则
- 10.6.3 测量校直数据
- 10.7 校直示例数据
- 10.7.1 FD2_OPEN的重述
- 10.7.2 INVESTMENT的重述
- 10.8 在突起规则不适用的情况下选用的技术
- 10.8.1 拟合logit值散点图
- 10.8.2 平滑预测值与实际值散点图
- 10.9 MOS_OPEN的重述
- 10.10 评估变量的重要性
- 10.10.1 计算G统计量
- 10.10.2 单变量的重要性
- 10.10.3 变量子集合的重要性
- 10.10.4 不同变量子集合的重要性比较
- 10.11 案例的重要变量
- 10.12 变量的相对重要性
- 10.13 案例变量的最佳子集合
- 10.14 模型预测准确性的可视化指标
- 10.14.1 得分组的平滑残差散点图
- 10.14.2 基于十分位组的平滑预测与实际值散点图
- 10.14.3 基于得分组的平滑预测与实际值散点图
- 10.15 评估数据挖掘工作
- 10.15.1 基于得分组的平滑残差分布图:EDA模型与非EDA模型对比
- 10.15.2 基于十分位组的平滑预测与实际值散点图:EDA模型与非EDA模型对比
- 10.15.3 基于得分组的平滑预测与实际值散点图:EDA模型与非EDA模型对比
- 10.15.4 数据挖掘工作小结
- 10.16 平滑一个类别变量
- 10.16.1 用CHAID平滑FD_TYPE
- 10.16.2 CH_FTY_1和CH_FTY_2的重要性
- 10.17 本案例的其他数据挖掘工作
- 10.17.1 基于得分组的平滑残差散点图:4变量EDA模型与3变量EDA模型对比
- 10.17.2 基于十分位组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比
- 10.17.3 基于得分组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比
- 10.17.4 其他数据挖掘工作的总结
- 10.18 本章小结
- 第11章 无抽样调研数据预测钱包份额
- 11.1 引言
- 11.2 背景
- 11.3 SOW_q计算过程
- 11.3.1 有趣的问题
- 11.3.2 金额和总金额
- 11.4 为AMPECS构建SOW_q模型
- 11.5 SOW_q模型的定义
- 11.6 本章小结
- 附录11.A 六步法
- 附录11.B 七步法
- 参考资料
- 第12章 普通回归:利润建模的强大工具
- 12.1 引言
- 12.2 普通回归模型
- 12.2.1 说明
- 12.2.2 为OLS利润模型评分
- 12.3 迷你案例
- 12.3.1 校直迷你案例的数据
- 12.3.2 平滑预测值散点图与实际值散点图
- 12.3.3 评估变量的重要性
- 12.4 迷你案例的重要变量
- 12.4.1 变量的相对重要性
- 12.4.2 选择最佳子集合
- 12.5 案例变量的最佳子集合
- 12.5.1 用gINCOME和AGE构建PROFIT模型
- 12.5.2 最佳PROFIT模型
- 12.6 抑制变量AGE
- 12.7 本章小结
- 参考资料
- 第13章 回归变量选择方法:可忽略的问题和重要解决方案
- 13.1 引言
- 13.2 背景
- 13.3 常用的变量选择方法
- 13.4 分步法的缺陷
- 13.5 改进的变量选择方法
- 13.6 本章小结
- 参考资料
- 第14章 用CHAID解读逻辑斯谛回归模型
- 14.1 引言
- 14.2 逻辑斯谛回归模型
- 14.3 数据库营销回应模型案例研究
- 14.4 CHAID
- 14.5 多变量CHAID树
- 14.6 CHAID市场细分
- 14.7 CHAID树状图
- 14.8 本章小结
- 第15章 回归系数的重要性
- 15.1 引言
- 15.2 普通回归模型
- 15.3 四个问题
- 15.4 重要预测变量
- 15.5 p值与大数据
- 15.6 回到问题1
- 15.7 预测变量对预测结果的影响
- 15.8 提示
- 15.9 回到问题2
- 15.10 按照对预测的影响对预测变量排序
- 15.11 回到问题3
- 15.12 回到问题4
- 15.13 本章小结
- 参考资料
- 第16章 相关系数均值:评估预测模型和预测变量重要性的统计数据挖掘指标
- 16.1 引言
- 16.2 背景
- 16.3 可靠度和效度的区别
- 16.4 可靠度和效度的关系
- 16.5 平均相关系数
- 16.5.1 图示LTV5模型的平均相关系数
- 16.5.2 LTV5模型的平均相关系数
- 16.5.3 LTV5模型比较
- 16.6 本章小结
- 参考资料
- 第17章 交互变量指定CHAID模型
- 17.1 引言
- 17.2 交互变量
- 17.3 交互变量建模策略
- 17.4 基于特殊点的策略
- 17.5 交互变量的回应模型示例
- 17.6 用CHAID找出关系
- 17.7 指定模型的CHAID
- 17.8 探索
- 17.9 数据库含义
- 17.10 本章小结
- 参考资料
- 第18章 市场细分:逻辑斯谛回归建模
- 18.1 引言
- 18.2 二值逻辑斯谛回归
- 18.3 多分类逻辑斯谛回归模型
- 18.4 使用PLR建模
- 18.5 市场细分的分类模型
- 18.5.1 移动电话用户调研
- 18.5.2 CHAID分析
- 18.5.3 CHAID树状图
- 18.5.4 市场细分分类模型
- 18.6 本章小结
- 第19章 市场细分:时间序列数据LCA
- 19.1 引言
- 19.2 背景
- 19.2.1 k均值聚类分析
- 19.2.2 主成分分析
- 19.2.3 因素分析
- 19.2.4 LCA与FA图示
- 19.3 LCA
- 19.4 LCA与k均值聚类分析
- 19.5 用LCA对时间序列数据进行市场细分
- 19.5.1 目标
- 19.5.2 最佳LCA模型
- 19.6 本章小结
- 附录19.A 建立UNITS的趋势3
- 附录19.B POS-ZER-NEG建立趋势4
- 参考资料
- 第20章 市场细分:理解细分群体的便捷途径
- 20.1 引言
- 20.2 背景
- 20.3 示例
- 20.4 解读各个细分市场
- 20.5 本章小结
- 附录20.A SAMPLE数据集
- 附录20.B 分类变量的均值
- 附录20.C 指数化数据
- 参考资料
- 第21章 统计回归模型:理解模型的简单方法
- 21.1 引言
- 21.2 背景
- 21.3 用于逻辑斯谛回归模型的EZ法
- 21.4 逻辑斯谛回归的EZ法示例的讨论
- 21.5 本章小结
- 附录21.A 基于M65分布的X10~X14均值
- 附录21.B 建立10个数据集(每个十分位区间一个)
- 附录21.C 十分位的指数化信息
- 第22章 CHAID:填充缺失值的方法
- 22.1 引言
- 22.2 数据缺失问题
- 22.3 与数据缺失相关的假设
- 22.4 CHAID填充法
- 22.5 示例
- 22.5.1 连续变量的CHAID均值填充
- 22.5.2 面向连续变量的大量缺失值CHAID均值填充
- 22.5.3 LIFE_DOL的回归树填充
- 22.6 CHAID面向单个类别变量的最大似然类别填充
- 22.6.1 填充性别变量的CHAID最大似然类别法
- 22.6.2 填充性别变量的分类树法
- 22.7 本章小结
- 参考资料
- 第23章 大数据建模
- 23.1 引言
- 23.2 背景
- 23.3 CCA-PCA分析法:具体案例
- 23.4 用完整数据集构建回应模型
- 23.5 用不完整数据集构建回应模型
- 23.6 基于PCA-BICA数据构建回应模型
- 23.6.1 基于主成分分析并经二值转换的不完整数据回应模型分析结果
- 23.6.2 综合CCA与PCA-BICA的回应模型结果
- 23.7 本章小结
- 附录23.A NMISS
- 附录23.B 测试完整样本分析法的样本大小
- 附录23.C CCA-CIA数据集
- 附录23.D 1和0
- 参考资料
- 第24章 艺术、科学、数字和诗歌
- 24.1 引言
- 24.2 零和一
- 24.3 思考的力量
- 24.4 统计黄金法则:衡量统计实践的艺术和科学
- 24.5 本章小结
- 参考资料
- 第25章 识别最佳客户:描述性、预测性和相似性描述
- 25.1 引言
- 25.2 相关概念
- 25.3 对有缺陷的客户进行描述
- 25.4 清晰有效的客户定位
- 25.5 预测性分析
- 25.6 连续变量树状图
- 25.7 相似人群扩展分析
- 25.8 相似树状图的特点
- 25.9 本章小结
- 第26章 营销模型评估
- 26.1 引言
- 26.2 回应模型的准确度
- 26.3 利润模型的准确度
- 26.4 回应模型的十分位分析与累积提升度
- 26.5 利润模型的十分位分析与累积提升度
- 26.6 回应模型的精确度
- 26.7 利润模型的精确度
- 26.8 回应模型和利润模型的分离性
- 26.9 累积提升度、HL/SWMAD指数以及离散系数的应用指南
- 26.10 本章小结
- 第27章 十分位分析:视角与效果
- 27.1 引言
- 27.2 背景
- 27.3 性能评估:回应模型与随机选择
- 27.4 性能评估:十分位分析
- 27.5 本章小结
- 附录27.A 计算准确度收益:模型与随机
- 附录27.B 计算精确度收益:模型与随机
- 附录27.C 回应模型PROB_est值的十分位分析
- 附录27.D 2×2十分位表
- 参考资料
- 第28章 T-C净提升度模型:评估试验组与对照组的营销效果
- 28.1 引言
- 28.2 背景
- 28.3 试验营销与对照营销回应模型的建模
- 28.3.1 试验组回应模型建模
- 28.3.2 对照组回应模型建模
- 28.4 T-C净提升度模型
- 28.5 本章小结
- 附录28.A 用Xs做TEST Logistic
- 附录28.B 用Xs做CONTROL Logistic
- 附录28.C 合并计算
- 附录28.D T-C净提升度十分位分析
- 参考资料
- 第29章 自助法在营销中的应用:一种新的模型验证方法
- 29.1 引言
- 29.2 传统模型验证
- 29.3 示例
- 29.4 三个问题
- 29.5 自助法
- 29.6 如何使用自助法
- 29.7 自助法十分位分析验证
- 29.8 其他问题
- 29.9 用自助法评估模型性能
- 29.10 用自助法评估模型效力
- 29.11 本章小结
- 参考资料
- 第30章 用自助法验证逻辑斯谛回归模型
- 30.1 引言
- 30.2 逻辑斯谛回归模型
- 30.3 如何用自助法进行验证
- 30.4 本章小结
- 参考资料
- 第31章 营销模型可视化:用数据深度挖掘模型
- 31.1 引言
- 31.2 图形简史
- 31.3 星形图基础
- 31.4 单变量星形图
- 31.5 多变量星形图
- 31.6 剖面曲线法
- 31.6.1 剖面曲线基础
- 31.6.2 剖面分析
- 31.7 示例
- 31.7.1 回应模型的剖面曲线
- 31.7.2 十分位组剖面曲线
- 31.8 本章小结
- 附录31.A 十分位各人口变量的星形图
- 附录31.B 人口变量各十分位的星形图
- 附录31.C 剖面曲线:各十分位
- 参考资料
- 第32章 预测贡献系数:预测重要性的度量
- 32.1 引言
- 32.2 背景
- 32.3 判定规则示例
- 32.4 预测贡献系数
- 32.5 预测贡献系数的计算
- 32.6 预测贡献系数的另一示例
- 32.7 本章小结
- 参考资料
- 第33章 建模是艺术、科学与诗的结合
- 33.1 引言
- 33.2 灵感来源于莎士比亚的诗
- 33.3 解读
- 33.4 本章小结
- 参考资料
- 第34章 献给数据狂的数据分析12步法
- 34.1 引言
- 34.2 背景
- 34.3 步骤
- 34.4 标记
- 34.5 本章小结
- 附录34.A 数据集IN
- 附录34.B Samsize+
- 附录34.C 可粘贴副本
- 附录34.D 缺失数据
- 参考资料
- 第35章 遗传回归模型与统计回归模型
- 35.1 引言
- 35.2 背景
- 35.3 目标
- 35.4 GenIQ模型:遗传逻辑斯谛回归
- 35.5 遗传编程法的发展
- 35.6 GenIQ模型的目标及重要特性
- 35.7 GenIQ模型工作原理
- 35.8 本章小结
- 参考资料
- 第36章 数据重用:GenIQ模型的强大数据挖掘技术
- 36.1 引言
- 36.2 数据重用
- 36.3 示例
- 36.3.1 GenIQ利润模型
- 36.3.2 数据重用变量简介
- 36.3.3 数据重用变量GenIQvar_1和GenIQvar_2
- 36.4 调整数据重用定义:GenIQ强化版回归模型
- 36.5 本章小结
- 第37章 数据挖掘技术——离群值的调整
- 37.1 引言
- 37.2 背景
- 37.3 离群值的调整
- 37.3.1 调整离群值的示例
- 37.3.2 GenIQ模型在调整离群值中的作用
- 37.4 本章小结
- 参考资料
- 第38章 过拟合的全新解决方案
- 38.1 引言
- 38.2 背景
- 38.3 利用GenIQ模型解决过拟合问题
- 38.3.1 RANDOM_SPLIT的GenIQ模型
- 38.3.2 RANDOM_SPLIT的GenIQ模型十分位分析
- 38.3.3 类N层分析
- 38.4 本章小结
- 第39章 回顾:为何校直数据如此重要
- 39.1 引言
- 39.2 重申校直数据的重要性
- 39.3 回顾:重述收入变量
- 39.4 回顾:挖掘(xx3,yy3)关系
- 39.5 本章小结
- 第40章 GenIQ模型的定义与应用
- 40.1 引言
- 40.2 何为优化
- 40.3 何为遗传建模
- 40.4 遗传建模示例
- 40.4.1 复制
- 40.4.2 交叉
- 40.4.3 突变
- 40.5 控制遗传模型运行的参数
- 40.6 遗传建模的优势与限制
- 40.7 营销建模的目标
- 40.8 GenIQ回应模型
- 40.9 GenIQ利润模型
- 40.10 案例研究:回应模型
- 40.11 案例研究:利润模型
- 40.12 本章小结
- 参考资料
- 第41章 如何为营销模型选择最佳变量
- 41.1 引言
- 41.2 背景
- 41.3 变量选择方法的缺陷
- 41.4 营销模型的目标
- 41.5 用GenIQ进行变量选择
- 41.5.1 GenIQ建模
- 41.5.2 GenIQ模型结构的辨别
- 41.5.3 GenIQ模型变量选择
- 41.6 逻辑斯谛回归模型的非线性替代方法
- 41.7 本章小结
- 参考资料
- 第42章 解读无系数模型
- 42.1 引言
- 42.2 线性回归系数
- 42.2.1 简单普通回归模型示例
- 42.2.2 简单逻辑斯谛回归模型示例
- 42.3 简单回归模型的准回归系数
- 42.3.1 简单回归模型的准回归系数示例
- 42.3.2 简单逻辑斯谛回归模型的准回归系数示例
- 42.3.3 非线性预测中的准回归系数示例
- 42.4 偏准回归系数
- 42.4.1 普适型偏回归系数的计算方法
- 42.4.2 多元逻辑斯谛回归模型示例
- 42.5 无系数模型的准回归系数
- 42.6 本章小结
- 第43章 文本挖掘:入门、示例及TXTDM软件
- 43.1 引言
- 43.2 背景
- 43.3 文本挖掘入门
- 43.4 与文本相关的统计量
- 43.5 文本转换中的二进制数据集
- 43.6 TXTDM文本挖掘程序示例
- 43.7 对文本挖掘模型GenIQ_FAVORED的分析
- 43.7.1 用文字描述更喜欢GenIQ模型的受访者
- 43.7.2 用文字描述更喜欢其他两种模型的受访者
- 43.8 对TXTDM程序加权
- 43.9 文档聚类
- 43.10 本章小结
- 附录43.A 加载Corpus TEXT数据集
- 附录43.B 创建二进制词的中间步骤
- 附录43.C 创建最终的二进制词
- 附录43.D 计算统计量TF、DF、NUM_DOCS和N
- 附录43.E 将GenIQ_FAVORED加入WORDS数据集
- 附录43.F GenIQ_FAVORED的逻辑斯谛分析模型
- 附录43.G 计算字词之间的关系数均值
- 附录43.H 创建TF-IDF
- 附录43.I 用WORDS和TF-IDF的Concat计算WORD_TF-IDF权重
- 附录43.J WORD_RESP与WORD_TF-IDF RESP
- 附录43.K 词干提取
- 附录43.L WORD乘以TF-IDF
- 附录43.M 用剖面的字词对数据集赋权
- 附录43.N 两类法VARCLUS
- 附录43.O 双集群法VARCLUS
- 附录43.P 集群1字词的指向
- 附录43.Q 比较GenIQ模型和随机模型的表现
- 附录43.R 比较自由集群模型和随机模型的表现
- 参考资料
- 第44章 一些我比较喜欢的统计子程序
- 44.1 子程序列表
- 44.2 第5章的(平均值和中位数)——X1和X2
- 44.3 第10章的平滑散点图——logit值和概率
- 44.4 第16章的平均相关系数——变量Var1、Var2、Var3
- 44.5 第29章的自助法十分位分析——数据来自表23.4(表44.2)
- 44.6 第42章的H幅度共有区域
- 44.7 选项排序、垂直输出的相关性分析
- 44.8 回应模型十分位分析
- 44.9 利润模型十分位分析
- 44.10 平滑时间序列分析数据(三变量的动态中位数)
- 44.11 大量高偏度变量的分析
- 译后记
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。