互联网
类型
可以朗读
语音朗读
237千字
字数
2024-05-01
发行日期
展开全部
主编推荐语
本书借助实际用例和现实数据集来实施数据挖掘。
内容简介
本书通过循序渐进的介绍,让读者借助基础以及先进的数据挖掘技术,帮助一个虚拟的商业公司解决对其造成负面影响的真实欺诈案例。通过全程参与这一极不寻常的数据挖掘案例,读者将会掌握数据挖掘方面的强大技能。
目录
- 版权信息
- 内容提要
- 作者简介
- 审稿人简介
- 前言
- 第1章 为何选择R语言
- 1.1 什么是R语言
- 1.2 R语言的发展历史
- 1.3 R语言的优势
- 1.3.1 开源
- 1.3.2 插件就绪
- 1.3.3 数据可视化友好
- 1.4 安装R语言和编写R语言代码
- 1.4.1 下载R语言程序包
- 1.4.2 应用于Windows平台和macOS平台的R语言程序包
- 1.4.3 应用于Linux平台的R语言程序包
- 1.4.4 R语言基础版本安装的主要组件
- 1.4.5 编写及运行R语言代码的替代工具平台
- 1.5 R语言的基本概念
- 1.5.1 R语言入门
- 1.5.2 向量
- 1.5.3 列表
- 1.5.4 数据帧
- 1.5.5 函数
- 1.6 R语言的劣势以及如何克服这些劣势
- 1.6.1 高效学习R语言,最小化精力投入
- 1.6.2 使用R语言操作大型数据集
- 1.7 更多参考
- 1.8 小结
- 第2章 数据挖掘入门
- 2.1 获取并组织银行数据
- 数据模型
- 2.2 使用数据透视表汇总数据
- 2.2.1 管道运算符简介
- 2.2.2 dplyr程序包简介
- 2.2.3 安装必要的程序包并将个人数据加载到R语言环境中
- 2.2.4 确定每月和每天的费用总额
- 2.3 使用ggplot2程序包对数据进行可视化
- 2.3.1 数据可视化基本原则
- 2.3.2 使用ggplot进行数据可视化
- 2.4 更多参考
- 2.5 小结
- 第3章 数据挖掘进阶
- 3.1 CRISP-DM方法论之数据挖掘周期
- 3.2 业务理解
- 3.3 数据理解
- 3.3.1 数据收集
- 3.3.2 数据描述
- 3.3.3 数据探索
- 3.4 数据准备
- 3.5 建模
- 定义数据建模策略
- 3.6 评估
- 3.6.1 聚类评估
- 3.6.2 分类评估
- 3.6.3 回归评估
- 3.6.4 如何判断模型性能的充分性
- 3.7 部署
- 3.7.1 部署计划开发
- 3.7.2 维护计划开发
- 3.8 小结
- 第4章 保持室内整洁
- 4.1 概述
- 4.2 数据源
- 数据源类型
- 4.3 数据仓库和数据库
- 4.3.1 中间层——数据集市
- 4.3.2 单层架构的数据仓库
- 4.3.3 双层架构的数据仓库
- 4.3.4 三层架构的数据仓库
- 4.3.5 实际应用的技术
- 4.4 数据挖掘引擎
- 4.4.1 解释器
- 4.4.2 引擎和数据仓库之间的接口
- 4.4.3 数据挖掘算法
- 4.5 用户界面
- 清晰性原则
- 效率原则
- 一致性原则
- 4.6 如何使用R语言创建数据挖掘架构
- 4.6.1 数据源
- 4.6.2 数据仓库
- 4.6.3 数据挖掘引擎
- 4.6.4 用户界面
- 4.7 更多参考
- 4.8 小结
- 第5章 如何解决数据挖掘问题
- 5.1 安静祥和的一天
- 5.2 数据清洗
- 5.2.1 tidy data框架
- 5.2.2 分析数据的结构
- 5.2.3 数据整理
- 5.2.4 验证数据
- 5.2.5 数据合并
- 5.3 更多参考
- 5.4 小结
- 第6章 观察数据
- 6.1 汇总EDA介绍
- 6.1.1 描述总体分布
- 6.1.2 测定变量之间的相关性
- 6.2 图形化EDA
- 6.2.1 变量分布可视化
- 6.2.2 变量关系可视化
- 6.3 更多参考
- 6.4 小结
- 第7章 最初的猜想
- 7.1 定义数据建模策略
- 数据建模相关概念
- 7.2 应用线性回归
- 7.2.1 线性回归的直观解释
- 7.2.2 线性回归的数学原理
- 7.2.3 如何在R语言中使用线性回归
- 7.3 更多参考
- 7.4 小结
- 第8章 浅谈模型性能评估
- 8.1 定义模型性能
- 8.1.1 模型的拟合度与可解释性
- 8.1.2 使用模型进行预测
- 8.2 衡量回归模型的性能
- 8.2.1 均方误差
- 8.2.2 R平方
- 8.3 衡量分类问题模型的性能
- 8.3.1 混淆矩阵
- 8.3.2 准确度
- 8.3.3 灵敏度
- 8.3.4 特异性
- 8.3.5 如何选择合适的性能统计指标
- 8.4 区分训练数据集与测试数据集
- 8.5 更多参考
- 8.6 小结
- 第9章 不要放弃—继续学习 包括多元变量的回归
- 9.1 从简单线性回归到多元线性回归
- 9.1.1 符号
- 9.1.2 假设
- 9.2 降维
- 9.2.1 逐步回归
- 9.2.2 主成分回归
- 9.3 使用R语言拟合多元线性模型
- 9.3.1 模型拟合
- 9.3.2 变量的假设验证
- 9.3.3 残差假设验证
- 9.3.4 降维
- 9.4 更多参考
- 9.5 小结
- 第10章 关于分类模型问题的不同展望
- 10.1 为什么需要分类模型
- 10.1.1 线性回归应用于分类变量的局限性
- 10.1.2 常用的分类算法和模型
- 10.2 逻辑回归
- 10.2.1 逻辑回归的原理
- 10.2.2 逻辑回归的数学原理
- 10.2.3 如何在R中应用逻辑回归
- 10.2.4 逻辑回归结果的可视化与解释
- 10.3 支持向量机
- 10.3.1 支持向量机的原理
- 10.3.2 在R语言中应用支持向量机
- 10.3.3 理解支持向量机的结果
- 10.4 更多参考
- 10.5 小结
- 第11章 最后冲刺
- 11.1 随机森林
- 11.1.1 随机森林的构建模块——决策树简介
- 11.1.2 随机森林的原理
- 11.1.3 在R语言中应用随机森林
- 11.1.4 评估模型的结果
- 11.2 集成学习
- 11.2.1 基础的集成学习技术
- 11.2.2 采用R语言对数据进行集成学习
- 11.3 在新数据上应用估计模型
- 11.3.1 将predict.glm()函数用于逻辑模型的预测
- 11.3.2 将predict.randomForest()函数用于随机森林的预测
- 11.3.3 将predict.svm()函数用于支持向量机的预测
- 11.4 结构化更加良好的预测分析方法
- 11.5 对预测数据应用集成学习中的多数投票技术
- 11.6 更多参考
- 11.7 小结
- 第12章 寻找罪魁祸首
- 12.1 提取PDF文件中的数据
- 12.1.1 获取文档列表
- 12.1.2 通过pdf_text()函数将PDF文件读取到R语言环境
- 12.1.3 使用for循环迭代提取文本
- 12.2 文本情感分析
- 12.3 开发词云
- 12.4 N元模型分析
- 12.5 网络分析
- 12.5.1 从数据帧中获取边列表
- 12.5.2 使用ggraph程序包可视化网络
- 12.6 更多参考
- 12.7 小结
- 第13章 借助R Markdown分享公司现状
- 13.1 富有说服力的数据挖掘报告的原则
- 13.1.1 清晰阐明目标
- 13.1.2 明确陈述假设
- 13.1.3 数据处理过程清晰明了
- 13.1.4 检查数据一致性
- 13.1.5 提供数据谱系
- 13.2 编制R Markdown报告
- 13.3 在RStudio中编制R Markdown报告文档
- 13.3.1 Markdown 简介
- 13.3.2 插入代码块
- 13.3.3 通过内联R语言代码在文本中重现代码的输出
- 13.3.4 Shiny简介以及响应式框架
- 13.3.5 添加交互式数据谱系模块
- 13.4 渲染和分享R Markdown报告
- 13.4.1 渲染R Markdown报告
- 13.4.2 分享R Markdown报告
- 13.5 更多参考
- 13.6 小结
- 第14章 结语
- 附录 日期、相对路径和函数处理
- 彩图
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。