展开全部

主编推荐语

本书借助实际用例和现实数据集来实施数据挖掘。

内容简介

本书通过循序渐进的介绍,让读者借助基础以及先进的数据挖掘技术,帮助一个虚拟的商业公司解决对其造成负面影响的真实欺诈案例。通过全程参与这一极不寻常的数据挖掘案例,读者将会掌握数据挖掘方面的强大技能。

目录

  • 版权信息
  • 内容提要
  • 作者简介
  • 审稿人简介
  • 前言
  • 第1章 为何选择R语言
  • 1.1 什么是R语言
  • 1.2 R语言的发展历史
  • 1.3 R语言的优势
  • 1.3.1 开源
  • 1.3.2 插件就绪
  • 1.3.3 数据可视化友好
  • 1.4 安装R语言和编写R语言代码
  • 1.4.1 下载R语言程序包
  • 1.4.2 应用于Windows平台和macOS平台的R语言程序包
  • 1.4.3 应用于Linux平台的R语言程序包
  • 1.4.4 R语言基础版本安装的主要组件
  • 1.4.5 编写及运行R语言代码的替代工具平台
  • 1.5 R语言的基本概念
  • 1.5.1 R语言入门
  • 1.5.2 向量
  • 1.5.3 列表
  • 1.5.4 数据帧
  • 1.5.5 函数
  • 1.6 R语言的劣势以及如何克服这些劣势
  • 1.6.1 高效学习R语言,最小化精力投入
  • 1.6.2 使用R语言操作大型数据集
  • 1.7 更多参考
  • 1.8 小结
  • 第2章 数据挖掘入门
  • 2.1 获取并组织银行数据
  • 数据模型
  • 2.2 使用数据透视表汇总数据
  • 2.2.1 管道运算符简介
  • 2.2.2 dplyr程序包简介
  • 2.2.3 安装必要的程序包并将个人数据加载到R语言环境中
  • 2.2.4 确定每月和每天的费用总额
  • 2.3 使用ggplot2程序包对数据进行可视化
  • 2.3.1 数据可视化基本原则
  • 2.3.2 使用ggplot进行数据可视化
  • 2.4 更多参考
  • 2.5 小结
  • 第3章 数据挖掘进阶
  • 3.1 CRISP-DM方法论之数据挖掘周期
  • 3.2 业务理解
  • 3.3 数据理解
  • 3.3.1 数据收集
  • 3.3.2 数据描述
  • 3.3.3 数据探索
  • 3.4 数据准备
  • 3.5 建模
  • 定义数据建模策略
  • 3.6 评估
  • 3.6.1 聚类评估
  • 3.6.2 分类评估
  • 3.6.3 回归评估
  • 3.6.4 如何判断模型性能的充分性
  • 3.7 部署
  • 3.7.1 部署计划开发
  • 3.7.2 维护计划开发
  • 3.8 小结
  • 第4章 保持室内整洁
  • 4.1 概述
  • 4.2 数据源
  • 数据源类型
  • 4.3 数据仓库和数据库
  • 4.3.1 中间层——数据集市
  • 4.3.2 单层架构的数据仓库
  • 4.3.3 双层架构的数据仓库
  • 4.3.4 三层架构的数据仓库
  • 4.3.5 实际应用的技术
  • 4.4 数据挖掘引擎
  • 4.4.1 解释器
  • 4.4.2 引擎和数据仓库之间的接口
  • 4.4.3 数据挖掘算法
  • 4.5 用户界面
  • 清晰性原则
  • 效率原则
  • 一致性原则
  • 4.6 如何使用R语言创建数据挖掘架构
  • 4.6.1 数据源
  • 4.6.2 数据仓库
  • 4.6.3 数据挖掘引擎
  • 4.6.4 用户界面
  • 4.7 更多参考
  • 4.8 小结
  • 第5章 如何解决数据挖掘问题
  • 5.1 安静祥和的一天
  • 5.2 数据清洗
  • 5.2.1 tidy data框架
  • 5.2.2 分析数据的结构
  • 5.2.3 数据整理
  • 5.2.4 验证数据
  • 5.2.5 数据合并
  • 5.3 更多参考
  • 5.4 小结
  • 第6章 观察数据
  • 6.1 汇总EDA介绍
  • 6.1.1 描述总体分布
  • 6.1.2 测定变量之间的相关性
  • 6.2 图形化EDA
  • 6.2.1 变量分布可视化
  • 6.2.2 变量关系可视化
  • 6.3 更多参考
  • 6.4 小结
  • 第7章 最初的猜想
  • 7.1 定义数据建模策略
  • 数据建模相关概念
  • 7.2 应用线性回归
  • 7.2.1 线性回归的直观解释
  • 7.2.2 线性回归的数学原理
  • 7.2.3 如何在R语言中使用线性回归
  • 7.3 更多参考
  • 7.4 小结
  • 第8章 浅谈模型性能评估
  • 8.1 定义模型性能
  • 8.1.1 模型的拟合度与可解释性
  • 8.1.2 使用模型进行预测
  • 8.2 衡量回归模型的性能
  • 8.2.1 均方误差
  • 8.2.2 R平方
  • 8.3 衡量分类问题模型的性能
  • 8.3.1 混淆矩阵
  • 8.3.2 准确度
  • 8.3.3 灵敏度
  • 8.3.4 特异性
  • 8.3.5 如何选择合适的性能统计指标
  • 8.4 区分训练数据集与测试数据集
  • 8.5 更多参考
  • 8.6 小结
  • 第9章 不要放弃—继续学习 包括多元变量的回归
  • 9.1 从简单线性回归到多元线性回归
  • 9.1.1 符号
  • 9.1.2 假设
  • 9.2 降维
  • 9.2.1 逐步回归
  • 9.2.2 主成分回归
  • 9.3 使用R语言拟合多元线性模型
  • 9.3.1 模型拟合
  • 9.3.2 变量的假设验证
  • 9.3.3 残差假设验证
  • 9.3.4 降维
  • 9.4 更多参考
  • 9.5 小结
  • 第10章 关于分类模型问题的不同展望
  • 10.1 为什么需要分类模型
  • 10.1.1 线性回归应用于分类变量的局限性
  • 10.1.2 常用的分类算法和模型
  • 10.2 逻辑回归
  • 10.2.1 逻辑回归的原理
  • 10.2.2 逻辑回归的数学原理
  • 10.2.3 如何在R中应用逻辑回归
  • 10.2.4 逻辑回归结果的可视化与解释
  • 10.3 支持向量机
  • 10.3.1 支持向量机的原理
  • 10.3.2 在R语言中应用支持向量机
  • 10.3.3 理解支持向量机的结果
  • 10.4 更多参考
  • 10.5 小结
  • 第11章 最后冲刺
  • 11.1 随机森林
  • 11.1.1 随机森林的构建模块——决策树简介
  • 11.1.2 随机森林的原理
  • 11.1.3 在R语言中应用随机森林
  • 11.1.4 评估模型的结果
  • 11.2 集成学习
  • 11.2.1 基础的集成学习技术
  • 11.2.2 采用R语言对数据进行集成学习
  • 11.3 在新数据上应用估计模型
  • 11.3.1 将predict.glm()函数用于逻辑模型的预测
  • 11.3.2 将predict.randomForest()函数用于随机森林的预测
  • 11.3.3 将predict.svm()函数用于支持向量机的预测
  • 11.4 结构化更加良好的预测分析方法
  • 11.5 对预测数据应用集成学习中的多数投票技术
  • 11.6 更多参考
  • 11.7 小结
  • 第12章 寻找罪魁祸首
  • 12.1 提取PDF文件中的数据
  • 12.1.1 获取文档列表
  • 12.1.2 通过pdf_text()函数将PDF文件读取到R语言环境
  • 12.1.3 使用for循环迭代提取文本
  • 12.2 文本情感分析
  • 12.3 开发词云
  • 12.4 N元模型分析
  • 12.5 网络分析
  • 12.5.1 从数据帧中获取边列表
  • 12.5.2 使用ggraph程序包可视化网络
  • 12.6 更多参考
  • 12.7 小结
  • 第13章 借助R Markdown分享公司现状
  • 13.1 富有说服力的数据挖掘报告的原则
  • 13.1.1 清晰阐明目标
  • 13.1.2 明确陈述假设
  • 13.1.3 数据处理过程清晰明了
  • 13.1.4 检查数据一致性
  • 13.1.5 提供数据谱系
  • 13.2 编制R Markdown报告
  • 13.3 在RStudio中编制R Markdown报告文档
  • 13.3.1 Markdown 简介
  • 13.3.2 插入代码块
  • 13.3.3 通过内联R语言代码在文本中重现代码的输出
  • 13.3.4 Shiny简介以及响应式框架
  • 13.3.5 添加交互式数据谱系模块
  • 13.4 渲染和分享R Markdown报告
  • 13.4.1 渲染R Markdown报告
  • 13.4.2 分享R Markdown报告
  • 13.5 更多参考
  • 13.6 小结
  • 第14章 结语
  • 附录 日期、相对路径和函数处理
  • 彩图
展开全部

评分及书评

评分不足
1个评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。