展开全部

主编推荐语

本书从理解问题定义、了解数据内的高层信息、数据清理、视化数据,到基础建模、模型优化,分享一个数据分析师的视角与思路。

内容简介

全书共8章。第1章对预测分析的流程进行一个高层次的概述。第2章介绍本书需要安装使用的库,并讲解数据清理步骤的执行。第3章讲解基础建模需考虑的细节,结合第4章的模型选择,可以搭建一个基础的预测管道。第5章和第6章分别从模型和数据的角度讲解如何优化预测表现。第7章讲解时间序列这一特殊数据的预测方法。最后,第8章总结全书学习到的内容,解决一个实战问题。

本书面向3类读者。第1类,有编程基础但毫无数据科学背景,有意入门的读者;第2类,有数据科学理论基础,有意进入实操的读者,如刚毕业没有业界经验的学生;第3类,有数据科学理论基础与实操经验,但日常工作集中在数据分析管道中的数据分析师。

目录

  • 版权信息
  • 内容简介
  • 作者简介
  • 前言
  • 第1章 预测分析与机器学习的实用价值
  • 1.1 人工智能、机器学习与数据分析的关系
  • 1.2 什么是预测分析
  • 1.3 预测分析在各行业中的应用
  • 1.4 预测分析流程概览
  • 1.5 小结
  • 第2章 数据清理
  • 2.1 建立编程环境
  • 2.1.1 Anaconda简介及安装
  • 2.1.2 Jupyter Notebook简介及安装
  • 2.1.3 Pandas简介及安装
  • 2.1.4 scikit-learn简介及安装
  • 2.1.5 XGBoost、LightGBM、CatBoost简介及安装
  • 2.1.6 TensorFlow简介及安装
  • 2.2 面对异构数据如何下手
  • 2.2.1 什么是异构数据
  • 2.2.2 如何处理异构数据
  • 2.3 数据误差
  • 2.3.1 各类数据误差及其影响
  • 2.3.2 如何处理数据误差
  • 2.4 数据重新格式化
  • 第3章 基础建模
  • 3.1 判断何为X和y
  • 3.1.1 X和y的定义
  • 3.1.2 X和y的选择对预测的影响
  • 3.2 训练集、验证集与测试集
  • 3.2.1 三者的定义及关系
  • 3.2.2 如何使用sklearn分离3个集
  • 3.2.3 如何使用Pandas手动分离3个集
  • 3.3 数据泄露
  • 3.3.1 不同类型的数据泄露
  • 3.3.2 发现并避免目标泄露
  • 3.3.3 避免训练集与测试集的相互污染
  • 3.4 偏差与方差
  • 3.4.1 定义偏差与方差
  • 3.4.2 过拟合与欠拟合
  • 3.4.3 实践中的过拟合与欠拟合
  • 3.5 小结
  • 第4章 模型选择
  • 4.1 朴素贝叶斯分类器
  • 4.2 关联规则算法
  • 4.3 K近邻算法
  • 4.4 K均值聚类算法
  • 4.5 回归算法
  • 4.5.1 线性回归
  • 4.5.2 罗吉斯蒂回归
  • 4.6 深度神经网络
  • 4.7 决策树
  • 4.8 森林算法
  • 4.8.1 随机森林
  • 4.8.2 极端随机树
  • 4.8.3 孤立森林
  • 4.9 提升方法
  • 4.9.1 Adaboost
  • 4.9.2 XGBoost和LightGBM
  • 4.9.3 CatBoost
  • 第5章 模型优化
  • 5.1 损失函数和衡量指标
  • 5.1.1 分类问题的衡量指标
  • 5.1.2 回归问题的衡量指标
  • 5.1.3 损失函数
  • 5.2 K折交叉验证
  • 5.3 超参数调试
  • 5.3.1 网格搜索法
  • 5.3.2 随机搜索法
  • 5.3.3 遗传算法
  • 5.4 函数正则化
  • 第6章 数据优化
  • 6.1 数据规范化
  • 6.2 异常值清理
  • 6.3 平滑法
  • 6.4 聚类
  • 6.5 特征工程
  • 第7章 时间序列
  • 7.1 时间序列简介
  • 7.2 时间序列数据探索
  • 7.2.1 加法模型下的可视化图
  • 7.2.2 乘法模型下的部分可视化图
  • 7.3 时间序列特征提取
  • 7.3.1 时间特征
  • 7.3.2 滞后特征
  • 7.3.3 基于移动窗口的特征
  • 7.3.4 基于展开窗口的特征
  • 7.4 时间序列模型
  • 7.4.1 自回归模型
  • 7.4.2 滑动平均模型
  • 7.4.3 整合移动平均自回归模型
  • 7.4.4 季节性整合移动平均自回归模型
  • 第8章 实战
  • 8.1 M5预测分析比赛介绍
  • 8.1.1 数据介绍
  • 8.1.2 评估标准
  • 8.2 数据清理
  • 8.3 基础建模
  • 8.4 优化
  • 图书推荐
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。