展开全部

主编推荐语

独特方式轻松学数据科学,全彩图表实战演练,覆盖众多算法。

内容简介

本书以独特的方式讲解数据科学,要让读者可以轻松学习数据科学理论,又可以动手(手算和机算)做数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单的数学说明;用一张学习地图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。本书共13章,内容涵盖:丰富的数据科学模型,包含关联分析、聚类分析、朴素贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法,利用小数据例题介绍计算步骤,同时用R语言验证计算结果;另外,也有大数据的案例数据用R语言计算结果。

目录

  • 封面页
  • 书名页
  • 版权页
  • 内容简介
  • 作者简介
  • 前言
  • 目录
  • 第一篇 基础篇
  • 第1章 大数据概述
  • 1.1 大数据与相关学科的定义
  • 1.1.1 大数据的定义
  • 1.1.2 数据挖掘
  • 1.1.3 数据挖掘标准过程
  • 1.1.4 机器学习
  • 1.1.5 知识管理
  • 1.1.6 数据科学
  • 1.1.7 商业智能
  • 1.1.8 人工智能
  • 1.1.9 统计学与大数据比较
  • 1.1.10 数据名词的定义
  • 1.2 系统与模型概念
  • 1.2.1 系统定义与成分
  • 1.2.2 输入,处理,输出与黑箱
  • 1.2.3 环境
  • 1.2.4 反馈
  • 1.2.5 效率与效果
  • 1.2.6 模型与建模
  • 1.2.7 模型的假定与参数
  • 1.2.8 敏感,稳健或鲁棒
  • 1.2.9 模型的过拟合
  • 1.3 大数据分析模型的分类
  • 1.3.1 后设模型
  • 1.3.2 关系与因果
  • 1.3.3 基于因果关系的统计学分类
  • 1.3.4 基于因果关系的大数据分类
  • 1.3.5 基于数据类型的分类
  • 1.3.6 基于测量的分类
  • 1.3.7 数据科学模型的其他分类
  • 1.4 大数据的江湖传奇
  • 1.5 R语言“词云图”代码
  • 1.6 本章思维导图
  • 第2章 大数据与R语言
  • 2.1 大数据进位
  • 2.2 R语言介绍
  • 2.2.1 安装R语言软件
  • 2.2.2 下载R语言程序包
  • 2.3 R数据对象的属性与结构
  • 2.3.1 数值
  • 2.3.2 整数
  • 2.3.3 字符串
  • 2.3.4 逻辑
  • 2.3.5 向量
  • 2.3.6 因子
  • 2.3.7 矩阵
  • 2.3.8 数据框
  • 2.3.9 数组
  • 2.3.10 列表
  • 2.3.11 时间序列
  • 2.3.12 访问数据类型和结构
  • 2.3.13 遗失值
  • 2.3.14 读入Excel CSV数据
  • 2.3.15 编辑数据
  • 2.3.16 保存Excel CSV数据
  • 2.3.17 数据输入窗口
  • 2.3.18 R的数据结构和函数表
  • 2.4 R的函数包
  • 2.5 R的数据绘图
  • 2.6 本章思维导图
  • 第二篇 非监督式学习
  • 第3章 关联分析
  • 3.1 关联分析介绍
  • 3.1.1 事务与项目的定义
  • 3.1.2 项集的关联规则
  • 3.2 关联规则数据格式
  • 3.3 关联规则的算法
  • 3.3.1 Apriori算法
  • 3.3.2 关联规则其他测度值
  • 3.3.3 负关联规则
  • 3.4 关联规则的优点和缺点
  • 3.4.1 Apriori算法的优点
  • 3.4.2 Apriori算法的缺点
  • 3.4.3 关联规则的评估
  • 3.5 关联规则的实例计算
  • 3.5.1 尿布与啤酒
  • 3.5.2 豆浆、烧饼与饭团
  • 3.5.3 评估与应用
  • 3.6 R语言实战
  • 3.6.1 泰坦尼克号
  • 3.6.2 商店数据
  • 3.6.3 食品杂货数据
  • 3.6.4 人口收入数据
  • 3.6.5 鸢尾花数据
  • 3.7 本章思维导图
  • 第4章 聚类分析
  • 4.1 聚类分析介绍
  • 4.2 距离与相似度衡量
  • 4.2.1 数值数据距离
  • 4.2.2 标准化与归一化
  • 4.2.3 0-1数据距离和相似度
  • 4.2.4 混合数据的距离
  • 4.2.5 顾客数据的距离
  • 4.2.6 距离和相似度的转换
  • 4.2.7 计算距离的R函数
  • 4.3 层次聚类分析
  • 4.3.1 两类连接
  • 4.3.2 顾客数据的聚类
  • 4.3.3 层次聚类的优点和缺点
  • 4.4 非层次聚类分析
  • 4.4.1 K-mean聚类
  • 4.4.2 PAM聚类
  • 4.4.3 K-mean聚类的优点和缺点
  • 4.5 聚类分析的评价
  • 4.6 R语言实战
  • 4.6.1 欧洲语言的聚类
  • 4.6.2 美国电力公司数据
  • 4.6.3 欧州人蛋白质数据
  • 4.6.4 红酒数据
  • 4.6.5 汽车数据
  • 4.7 本章思维导图
  • 第5章 降维分析
  • 5.1 降维分析介绍
  • 维度灾难
  • 5.2 主成分分析
  • 5.2.1 主成分分析的计算理论
  • 5.2.2 主成分分析的计算步骤
  • 5.2.3 主成分分析的优点和缺点
  • 5.3 R语言程序
  • 5.4 R语言实战
  • 5.4.1 鸢尾花数据
  • 5.4.2 美国罪犯数据
  • 5.4.3 美国法官数据
  • 5.4.4 国家冰球联盟资料
  • 5.4.5 美国职业棒球数据
  • 5.4.6 早餐麦片数据
  • 5.4.7 红酒数据
  • 5.4.8 心理学数据
  • 5.5 本章思维导图
  • 第三篇 监督式学习
  • 第6章 模型选择与评价
  • 6.1 模型选择与评价步骤
  • 6.2 大数据的抽样方法
  • 6.2.1 保留方法抽样
  • 6.2.2 自助抽样法
  • 6.2.3 632自助法
  • 6.2.4 过采样
  • 6.3 交叉验证
  • 6.3.1 k-折交叉验证
  • 6.3.2 留一交叉验证
  • 6.4 模型选择
  • 6.4.1 参数和非参数学习
  • 6.4.2 偏差和方差
  • 6.4.3 模型的复杂度
  • 6.4.4 正则化
  • 6.4.5 认真学习和懒惰学习
  • 6.5 模型评价
  • 6.5.1 二元0-1分类器的评价——混淆矩阵
  • 6.5.2 混淆矩阵的举例说明
  • 6.5.3 二元分类器的成本计算
  • 6.5.4 二元分类器例题数据R语言
  • 6.5.5 多标签分类器的评价
  • 6.5.6 多标签分类器评价R 语言
  • 6.5.7 交叉验证分类的评价
  • 6.5.8 分类学习的ROC曲线
  • 6.5.9 连续型目标变量回归模型的评价
  • 6.6 R语言实战
  • 6.6.1 R语言自动调模与调参
  • 6.6.2 汽车数据
  • 6.6.3 乳腺癌诊断数据
  • 6.7 本章思维导图
  • 第7章 回归分析
  • 7.1 多元线性回归
  • 7.1.1 多元线性回归模型
  • 7.1.2 参数估计
  • 7.1.3 适合性检验
  • 7.1.4 实例计算
  • 7.1.5 R语言的实例计算
  • 7.2 变量(特征)选择
  • 7.2.1 偏相关系数
  • 7.2.2 逐步回归
  • 7.2.3 部分子集回归
  • 7.2.4 压缩方法
  • 7.3 Logistic逻辑回归
  • 7.4 R语言实战
  • 7.4.1 股票数据
  • 7.4.2 乳腺癌病理数据
  • 7.4.3 医疗保险数据
  • 7.4.4 棒球数据
  • 7.4.5 波士顿房价数据
  • 7.4.6 皮玛数据
  • 7.5 本章思维导图
  • 第8章 近邻法
  • 8.1 学习器
  • 8.1.1 认真学习器和懒惰学习器
  • 8.1.2 基于实例学习器
  • 8.1.3 参数学习器和非参数学习器
  • 8.2 近邻法介绍
  • 8.2.1 k-近邻法算法步骤
  • 8.2.2 k-近邻法分类器
  • 8.2.3 k-近邻法回归
  • 8.2.4 自变量是分类变量
  • 8.3 近邻法的优点和缺点
  • 8.4 R语言实战
  • 8.4.1 食材数据
  • 8.4.2 鸢尾花数据
  • 8.4.3 乳癌检查数据
  • 8.4.4 美国总统候选人数据
  • 8.4.5 玻璃数据
  • 8.4.6 波士顿房价数据
  • 8.4.7 皮玛数据
  • 8.5 本章思维导图
  • 第9章 贝叶斯分类
  • 9.1 贝叶斯公式
  • 9.2 贝叶斯分类
  • 9.2.1 朴素贝叶斯分类
  • 9.2.2 特征值是连续变量
  • 9.2.3 朴素贝叶斯分类的优点和缺点
  • 9.3 贝叶斯分类的实例计算
  • 9.3.1 天气和打网球
  • 9.3.2 验前概率与似然概率
  • 9.3.3 拉普拉斯校准
  • 9.3.4 R语言实例计算
  • 9.4 R语言实战
  • 9.4.1 泰坦尼克号数据
  • 9.4.2 鸢尾花数据
  • 9.4.3 垃圾邮件数据
  • 9.4.4 皮玛数据
  • 9.5 本章思维导图
  • 第10章 决策树
  • 10.1 决策树概述
  • 10.1.1 图形表示
  • 10.1.2 逻辑表示
  • 10.1.3 规则表示
  • 10.1.4 数学公式表示
  • 10.2 决策树的信息计算
  • 10.2.1 信息计算
  • 10.2.2 熵与信息
  • 10.2.3 信息增益
  • 10.2.4 信息增益比
  • 10.2.5 基尼系数与基尼增益
  • 10.2.6 卡方统计量
  • 10.2.7 分枝法则的选择
  • 10.2.8 回归树
  • 10.3 决策树的实例计算
  • 10.4 决策树的剪枝
  • 10.4.1 贪婪算法
  • 10.4.2 决策树剪枝
  • 10.5 决策树的优点和缺点
  • 10.6 R语言实战
  • 10.6.1 决策树R语言包
  • 10.6.2 打网球数据
  • 10.6.3 泰坦尼克号数据
  • 10.6.4 鸢尾花数据
  • 10.6.5 皮玛数据
  • 10.6.6 汽车座椅销售数据
  • 10.6.7 波士顿房价数据
  • 10.6.8 猫数据
  • 10.6.9 驼背数据
  • 10.6.10 美国总统选举投票数据
  • 10.6.11 员工离职数据
  • 10.7 本章思维导图
  • 第11章 支持向量机
  • 11.1 支持向量机概述
  • 11.2 最大间隔分类(硬间隔)
  • 11.3 支持向量分类(软间隔)
  • 11.4 支持向量机(核函数)
  • 11.4.1 支持向量机的核函数
  • 11.4.2 多元分类支持向量机
  • 11.5 支持向量机的优点和缺点
  • 11.6 支持向量机R语言应用
  • 11.6.1 随机正态分布数据线性核函数
  • 11.6.2 随机正态分布数据径向基核函数
  • 11.6.3 三分类数据径向基核函数
  • 11.7 R语言实战
  • 11.7.1 基因表达数据
  • 11.7.2 鸢尾花数据
  • 11.7.3 猫数据
  • 11.7.4 皮玛数据
  • 11.7.5 字符数据
  • 11.7.6 玻璃数据
  • 11.8 本章思维导图
  • 第12章 集成学习
  • 12.1 集成学习介绍
  • 12.2 个别分类方法评价
  • 12.3 Bagging学习
  • 12.4 随机森林
  • 12.4.1 随机森林介绍
  • 12.4.2 随机森林算法步骤
  • 12.4.3 R语言
  • 12.4.4 随机森林的优点和缺点
  • 12.4.5 非监督式学习-鸢尾花数据
  • 12.4.6 美国大学数据
  • 12.5 Boosting学习
  • 12.6 Stacking学习
  • 12.6.1 皮玛数据
  • 12.6.2 员工离职数据
  • 12.7 R语言实战
  • 12.7.1 红酒数据
  • 12.7.2 信用数据
  • 12.7.3 皮玛数据
  • 12.7.4 波士顿房价数据
  • 12.7.5 汽车座椅数据
  • 12.7.6 顾客流失数据
  • 12.8 本章思维导图
  • 第13章 推荐系统
  • 13.1 推荐系统概述
  • 13.2 过滤推荐
  • 13.2.1 相似度
  • 13.2.2 基于用户的协同过滤
  • 13.2.3 基于项目的协同过滤
  • 13.2.4 协同过滤的评价
  • 13.2.5 协同过滤的优点和缺点
  • 13.2.6 混合的推荐机制
  • 13.3 R语言应用
  • 13.3.1 推荐系统R语言包
  • 13.3.2 recommenderlab函数程序
  • 13.3.3 模拟数据
  • 13.4 R语言实战
  • 13.4.1 电影数据
  • 13.4.2 笑话数据
  • 13.5 本章思维导图
  • 结语
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。