豆瓣高分
类型
9.3
豆瓣评分
可以朗读
语音朗读
102千字
字数
2018-07-01
发行日期
展开全部
主编推荐语
通俗易懂传授数据科学,结合SPSS Modeler与行业案例。
内容简介
本书利用轻松的场景,把专业晦涩的数据科学知识及商业应用案例用通俗易懂的方式传递给读者,同时所有场景会结合SPSS Modeler工具进行实现并提供样例供读者学习,方便读者在学习的同时加深对知识的巩固和理解。本书主要内容包括数据挖掘相关知识介绍、认识数据、理解数据、数据操作入门、SPSS Modeler中的建模方法、逻辑回归、贝叶斯方法、决策树、神经网络、聚类算法、机器学习,最后以行业案例来介绍具体的应用场景。
目录
- 封面
- 版权页
- 专家推荐语
- 前言
- 目录
- 第1章 数据挖掘那些事儿
- 1.1 当我们在谈数据挖掘时,其实在讨论什么
- 1.2 从CRISP-DM开启数据挖掘实践
- 第2章 数据挖掘之利器:SPSSModeler
- 2.1 SPSS Modeler简介
- 2.2 SPSS Modeler的下载与安装
- 2.3 SPSS Modeler的主界面及基本操作
- 2.3.1 SPSS Modeler主界面介绍
- 2.3.2 鼠标基本操作
- 2.4 将SPSS Modeler连接到服务器端
- 第3章 巧妇难为无米之炊:数据,数据!
- 3.1 数据的身份
- 3.1.1 变量的测量级别
- 3.1.2 变量的角色
- 3.2 数据的读取
- 3.2.1 读取Excel文件数据
- 3.2.2 读取变量文件数据
- 3.2.3 读取SPSS Statistics(.sav)文件数据
- 3.2.4 读取数据库数据
- 3.3 数据的基本设定
- 3.3.1 变量角色的设定
- 3.3.2 字段的筛选及命名
- 3.4 数据的集成
- 3.4.1 数据的变量集成:合并节点
- 3.4.2 数据的记录集成:追加节点
- 第4章 一点都不简单的描述性统计分析
- 4.1 分类变量的基本分析:“矩阵”节点
- 4.2 连续变量的基本分析:数据审核节点
- 4.2.1 连续变量基本分析指标介绍
- 4.2.2 “数据审核”节点
- 第5章 何为足够大的差异:常用的统计检验
- 5.1 假设检验
- 5.1.1 假设检验的基本原理
- 5.1.2 假设检验的一般步骤
- 5.2 连续变量与分类变量之间的关系:t检验
- 5.2.1 两组独立样本均值比较
- 5.2.2 两组配对样本均值比较
- 5.2.3 使用t检验的前提条件
- 5.2.4 案例:使用均值比较分析电信客户的流失情况
- 5.3 两个连续变量之间的关系:相关分析
- 5.3.1 相关分析理论
- 5.3.2 案例:使用相关分析研究居民消费水平与国内生产总值的相关关系
- 5.4 两个分类变量之间的关系:卡方检验
- 5.4.1 卡方检验的原理
- 5.4.2 卡方检验的前提条件
- 5.4.3 案例:使用卡方检验研究两个分类字段之间的关系
- 第6章 从身高和体重的关系谈起:回归分析
- 6.1 一元线性回归分析
- 6.1.1 分析因变量与自变量的关系,构建回归模型
- 6.1.2 估计模型系数,求解回归模型
- 6.1.3 对模型系数进行检验,确认模型有效性
- 6.1.4 拟合优度检验,判断模型解释能力
- 6.1.5 借助回归模型进行预测
- 6.2 多元线性回归分析
- 6.2.1 估计模型系数,求解回归模型
- 6.2.2 对模型参数进行检验,确认模型有效性
- 6.2.3 拟合优度检验,判断模型解释能力
- 6.2.4 模型的变量选择
- 6.3 使用线性回归分析的注意事项
- 6.4 案例:使用回归分析研究影响房屋价格的重要因素
- 第7章 回归岂止这么简单:回归模型的进一步扩展
- 7.1 曲线回归
- 7.2 Logistic回归
- 7.2.1 Logistic回归理论
- 7.2.2 案例:使用Logistic回归模型分析个人收入水平影响因素
- 第8章 模型评估那些事儿:过拟合与欠拟合
- 8.1 过拟合与欠拟合
- 8.2 留出法与交叉验证
- 8.2.1 留出法与分层抽样
- 8.2.2 交叉验证
- 第9章 从看电影的思考到决策树的生成
- 9.1 决策树概述
- 9.2 决策树生成
- 9.2.1 从ID3算法到C5.0算法
- 9.2.2 CART算法
- 9.3 决策树的剪枝
- 9.3.1 预剪枝策略
- 9.3.2 后剪枝策略
- 9.3.3 代价敏感学习
- 9.4 案例:用决策树分析客户违约情况
- 9.5 关于信息熵的扩展
- 第10章 人工神经网络:从人脑神经元开始
- 10.1 从人脑神经元到人工神经网络
- 10.2 感知机
- 10.3 人工神经网络
- 10.3.1 隐藏层的作用
- 10.3.2 人工神经网络算法
- 10.4 案例:利用人工神经网络分析某电信运营商的客户流失情况
- 第11章 物以类聚,人以群分:聚类分析
- 11.1 聚类思想的概述
- 11.2 聚类方法的关键:距离
- 11.3 K-Means算法
- 11.3.1 K-Means算法原理
- 11.3.2 轮廓系数(Silhouette coefficient)
- 11.4 案例:利用K-Means算法对不同型号汽车的属性进行聚类分群研究
- 第12章 啤酒+尿布=关联分析?
- 12.1 一个关于关联分析的传说
- 12.2 关联分析的基本概念
- 12.3 关联规则的有效性指标
- 12.4 Apriori算法
- 12.4.1 生成频繁项集
- 12.4.2 生成关联规则
- 12.5 案例:利用Apriori算法对顾客的个人信息及购买记录进行关联分析
- 第13章 三个臭皮匠,赛过诸葛亮:集成学习算法
- 13.1 集成学习算法概述
- 13.2 3种不同的集成学习算法
- 13.2.1 Bagging算法
- 13.2.2 Boosting算法
- 13.2.3 随机森林
- 13.3 集成学习算法实践
- 13.3.1 Bagging算法和Boosting算法
- 13.3.2 随机森林
- 13.3.3 集成学习算法结果比较
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。