计算机
类型
可以朗读
语音朗读
122千字
字数
2020-05-01
发行日期
展开全部
主编推荐语
独特方式轻松学数据科学,全彩图表实战演练,覆盖众多算法。
内容简介
本书以独特的方式讲解数据科学,要让读者可以轻松学习数据科学理论,又可以动手(手算和机算)做数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单的数学说明;用一张学习地图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。本书共13章,内容涵盖:丰富的数据科学模型,包含关联分析、聚类分析、朴素贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法,利用小数据例题介绍计算步骤,同时用R语言验证计算结果;另外,也有大数据的案例数据用R语言计算结果。
目录
- 封面页
- 书名页
- 版权页
- 内容简介
- 作者简介
- 前言
- 目录
- 第一篇 基础篇
- 第1章 大数据概述
- 1.1 大数据与相关学科的定义
- 1.1.1 大数据的定义
- 1.1.2 数据挖掘
- 1.1.3 数据挖掘标准过程
- 1.1.4 机器学习
- 1.1.5 知识管理
- 1.1.6 数据科学
- 1.1.7 商业智能
- 1.1.8 人工智能
- 1.1.9 统计学与大数据比较
- 1.1.10 数据名词的定义
- 1.2 系统与模型概念
- 1.2.1 系统定义与成分
- 1.2.2 输入,处理,输出与黑箱
- 1.2.3 环境
- 1.2.4 反馈
- 1.2.5 效率与效果
- 1.2.6 模型与建模
- 1.2.7 模型的假定与参数
- 1.2.8 敏感,稳健或鲁棒
- 1.2.9 模型的过拟合
- 1.3 大数据分析模型的分类
- 1.3.1 后设模型
- 1.3.2 关系与因果
- 1.3.3 基于因果关系的统计学分类
- 1.3.4 基于因果关系的大数据分类
- 1.3.5 基于数据类型的分类
- 1.3.6 基于测量的分类
- 1.3.7 数据科学模型的其他分类
- 1.4 大数据的江湖传奇
- 1.5 R语言“词云图”代码
- 1.6 本章思维导图
- 第2章 大数据与R语言
- 2.1 大数据进位
- 2.2 R语言介绍
- 2.2.1 安装R语言软件
- 2.2.2 下载R语言程序包
- 2.3 R数据对象的属性与结构
- 2.3.1 数值
- 2.3.2 整数
- 2.3.3 字符串
- 2.3.4 逻辑
- 2.3.5 向量
- 2.3.6 因子
- 2.3.7 矩阵
- 2.3.8 数据框
- 2.3.9 数组
- 2.3.10 列表
- 2.3.11 时间序列
- 2.3.12 访问数据类型和结构
- 2.3.13 遗失值
- 2.3.14 读入Excel CSV数据
- 2.3.15 编辑数据
- 2.3.16 保存Excel CSV数据
- 2.3.17 数据输入窗口
- 2.3.18 R的数据结构和函数表
- 2.4 R的函数包
- 2.5 R的数据绘图
- 2.6 本章思维导图
- 第二篇 非监督式学习
- 第3章 关联分析
- 3.1 关联分析介绍
- 3.1.1 事务与项目的定义
- 3.1.2 项集的关联规则
- 3.2 关联规则数据格式
- 3.3 关联规则的算法
- 3.3.1 Apriori算法
- 3.3.2 关联规则其他测度值
- 3.3.3 负关联规则
- 3.4 关联规则的优点和缺点
- 3.4.1 Apriori算法的优点
- 3.4.2 Apriori算法的缺点
- 3.4.3 关联规则的评估
- 3.5 关联规则的实例计算
- 3.5.1 尿布与啤酒
- 3.5.2 豆浆、烧饼与饭团
- 3.5.3 评估与应用
- 3.6 R语言实战
- 3.6.1 泰坦尼克号
- 3.6.2 商店数据
- 3.6.3 食品杂货数据
- 3.6.4 人口收入数据
- 3.6.5 鸢尾花数据
- 3.7 本章思维导图
- 第4章 聚类分析
- 4.1 聚类分析介绍
- 4.2 距离与相似度衡量
- 4.2.1 数值数据距离
- 4.2.2 标准化与归一化
- 4.2.3 0-1数据距离和相似度
- 4.2.4 混合数据的距离
- 4.2.5 顾客数据的距离
- 4.2.6 距离和相似度的转换
- 4.2.7 计算距离的R函数
- 4.3 层次聚类分析
- 4.3.1 两类连接
- 4.3.2 顾客数据的聚类
- 4.3.3 层次聚类的优点和缺点
- 4.4 非层次聚类分析
- 4.4.1 K-mean聚类
- 4.4.2 PAM聚类
- 4.4.3 K-mean聚类的优点和缺点
- 4.5 聚类分析的评价
- 4.6 R语言实战
- 4.6.1 欧洲语言的聚类
- 4.6.2 美国电力公司数据
- 4.6.3 欧州人蛋白质数据
- 4.6.4 红酒数据
- 4.6.5 汽车数据
- 4.7 本章思维导图
- 第5章 降维分析
- 5.1 降维分析介绍
- 维度灾难
- 5.2 主成分分析
- 5.2.1 主成分分析的计算理论
- 5.2.2 主成分分析的计算步骤
- 5.2.3 主成分分析的优点和缺点
- 5.3 R语言程序
- 5.4 R语言实战
- 5.4.1 鸢尾花数据
- 5.4.2 美国罪犯数据
- 5.4.3 美国法官数据
- 5.4.4 国家冰球联盟资料
- 5.4.5 美国职业棒球数据
- 5.4.6 早餐麦片数据
- 5.4.7 红酒数据
- 5.4.8 心理学数据
- 5.5 本章思维导图
- 第三篇 监督式学习
- 第6章 模型选择与评价
- 6.1 模型选择与评价步骤
- 6.2 大数据的抽样方法
- 6.2.1 保留方法抽样
- 6.2.2 自助抽样法
- 6.2.3 632自助法
- 6.2.4 过采样
- 6.3 交叉验证
- 6.3.1 k-折交叉验证
- 6.3.2 留一交叉验证
- 6.4 模型选择
- 6.4.1 参数和非参数学习
- 6.4.2 偏差和方差
- 6.4.3 模型的复杂度
- 6.4.4 正则化
- 6.4.5 认真学习和懒惰学习
- 6.5 模型评价
- 6.5.1 二元0-1分类器的评价——混淆矩阵
- 6.5.2 混淆矩阵的举例说明
- 6.5.3 二元分类器的成本计算
- 6.5.4 二元分类器例题数据R语言
- 6.5.5 多标签分类器的评价
- 6.5.6 多标签分类器评价R 语言
- 6.5.7 交叉验证分类的评价
- 6.5.8 分类学习的ROC曲线
- 6.5.9 连续型目标变量回归模型的评价
- 6.6 R语言实战
- 6.6.1 R语言自动调模与调参
- 6.6.2 汽车数据
- 6.6.3 乳腺癌诊断数据
- 6.7 本章思维导图
- 第7章 回归分析
- 7.1 多元线性回归
- 7.1.1 多元线性回归模型
- 7.1.2 参数估计
- 7.1.3 适合性检验
- 7.1.4 实例计算
- 7.1.5 R语言的实例计算
- 7.2 变量(特征)选择
- 7.2.1 偏相关系数
- 7.2.2 逐步回归
- 7.2.3 部分子集回归
- 7.2.4 压缩方法
- 7.3 Logistic逻辑回归
- 7.4 R语言实战
- 7.4.1 股票数据
- 7.4.2 乳腺癌病理数据
- 7.4.3 医疗保险数据
- 7.4.4 棒球数据
- 7.4.5 波士顿房价数据
- 7.4.6 皮玛数据
- 7.5 本章思维导图
- 第8章 近邻法
- 8.1 学习器
- 8.1.1 认真学习器和懒惰学习器
- 8.1.2 基于实例学习器
- 8.1.3 参数学习器和非参数学习器
- 8.2 近邻法介绍
- 8.2.1 k-近邻法算法步骤
- 8.2.2 k-近邻法分类器
- 8.2.3 k-近邻法回归
- 8.2.4 自变量是分类变量
- 8.3 近邻法的优点和缺点
- 8.4 R语言实战
- 8.4.1 食材数据
- 8.4.2 鸢尾花数据
- 8.4.3 乳癌检查数据
- 8.4.4 美国总统候选人数据
- 8.4.5 玻璃数据
- 8.4.6 波士顿房价数据
- 8.4.7 皮玛数据
- 8.5 本章思维导图
- 第9章 贝叶斯分类
- 9.1 贝叶斯公式
- 9.2 贝叶斯分类
- 9.2.1 朴素贝叶斯分类
- 9.2.2 特征值是连续变量
- 9.2.3 朴素贝叶斯分类的优点和缺点
- 9.3 贝叶斯分类的实例计算
- 9.3.1 天气和打网球
- 9.3.2 验前概率与似然概率
- 9.3.3 拉普拉斯校准
- 9.3.4 R语言实例计算
- 9.4 R语言实战
- 9.4.1 泰坦尼克号数据
- 9.4.2 鸢尾花数据
- 9.4.3 垃圾邮件数据
- 9.4.4 皮玛数据
- 9.5 本章思维导图
- 第10章 决策树
- 10.1 决策树概述
- 10.1.1 图形表示
- 10.1.2 逻辑表示
- 10.1.3 规则表示
- 10.1.4 数学公式表示
- 10.2 决策树的信息计算
- 10.2.1 信息计算
- 10.2.2 熵与信息
- 10.2.3 信息增益
- 10.2.4 信息增益比
- 10.2.5 基尼系数与基尼增益
- 10.2.6 卡方统计量
- 10.2.7 分枝法则的选择
- 10.2.8 回归树
- 10.3 决策树的实例计算
- 10.4 决策树的剪枝
- 10.4.1 贪婪算法
- 10.4.2 决策树剪枝
- 10.5 决策树的优点和缺点
- 10.6 R语言实战
- 10.6.1 决策树R语言包
- 10.6.2 打网球数据
- 10.6.3 泰坦尼克号数据
- 10.6.4 鸢尾花数据
- 10.6.5 皮玛数据
- 10.6.6 汽车座椅销售数据
- 10.6.7 波士顿房价数据
- 10.6.8 猫数据
- 10.6.9 驼背数据
- 10.6.10 美国总统选举投票数据
- 10.6.11 员工离职数据
- 10.7 本章思维导图
- 第11章 支持向量机
- 11.1 支持向量机概述
- 11.2 最大间隔分类(硬间隔)
- 11.3 支持向量分类(软间隔)
- 11.4 支持向量机(核函数)
- 11.4.1 支持向量机的核函数
- 11.4.2 多元分类支持向量机
- 11.5 支持向量机的优点和缺点
- 11.6 支持向量机R语言应用
- 11.6.1 随机正态分布数据线性核函数
- 11.6.2 随机正态分布数据径向基核函数
- 11.6.3 三分类数据径向基核函数
- 11.7 R语言实战
- 11.7.1 基因表达数据
- 11.7.2 鸢尾花数据
- 11.7.3 猫数据
- 11.7.4 皮玛数据
- 11.7.5 字符数据
- 11.7.6 玻璃数据
- 11.8 本章思维导图
- 第12章 集成学习
- 12.1 集成学习介绍
- 12.2 个别分类方法评价
- 12.3 Bagging学习
- 12.4 随机森林
- 12.4.1 随机森林介绍
- 12.4.2 随机森林算法步骤
- 12.4.3 R语言
- 12.4.4 随机森林的优点和缺点
- 12.4.5 非监督式学习-鸢尾花数据
- 12.4.6 美国大学数据
- 12.5 Boosting学习
- 12.6 Stacking学习
- 12.6.1 皮玛数据
- 12.6.2 员工离职数据
- 12.7 R语言实战
- 12.7.1 红酒数据
- 12.7.2 信用数据
- 12.7.3 皮玛数据
- 12.7.4 波士顿房价数据
- 12.7.5 汽车座椅数据
- 12.7.6 顾客流失数据
- 12.8 本章思维导图
- 第13章 推荐系统
- 13.1 推荐系统概述
- 13.2 过滤推荐
- 13.2.1 相似度
- 13.2.2 基于用户的协同过滤
- 13.2.3 基于项目的协同过滤
- 13.2.4 协同过滤的评价
- 13.2.5 协同过滤的优点和缺点
- 13.2.6 混合的推荐机制
- 13.3 R语言应用
- 13.3.1 推荐系统R语言包
- 13.3.2 recommenderlab函数程序
- 13.3.3 模拟数据
- 13.4 R语言实战
- 13.4.1 电影数据
- 13.4.2 笑话数据
- 13.5 本章思维导图
- 结语
- 参考文献
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。