展开全部

主编推荐语

一部告诉你如何将软件工程的思想、方法、工具和策略应用到机器学习实践中的著作。

内容简介

作者融合了自己10年的工程实践经验,以Python为工具,详细阐述机器学习核心概念、原理和实现,并提供了数据分析和处理、特征选择、模型调参和大规模模型上线系统架构等多个高质量源码包和工业应用框架,旨在帮助读者提高代码的设计质量和机器学习项目的工程效率。

全书共16章,分为4个部分:

第一部分工程基础篇(1~3章),介绍了机器学习和软件工程的融合,涉及理论、方法、工程化的数据科学环境和数据准备;

第二部分机器学习基础篇(4、5章),讲述了机器学习建模流程、核心概念,数据分析方法;

第三部分特征篇(6~8章),详细介绍了多种特征离散化方法和实现、特征自动衍生工具和自动化的特征选择原理与实现;

第四部分 模型篇(9~16章),首先,深入地剖析了线性模型、树模型和集成模型的原理,以及模型调参方法、自动调参、模型性能评估和模型解释等;然后,通过5种工程化的模型上线方法讲解了模型即服务;最后,讲解了模型的稳定性监控的方法与实现,这是机器学习项目的最后一环。

目录

  • 版权信息
  • 前言
  • 第一部分 工程基础篇
  • 第1章 机器学习软件工程方法
  • 1.1 机器学习简述
  • 1.2 软件工程方法
  • 1.3 朴素贝叶斯测试驱动开发案例
  • 1.4 本章小结
  • 第2章 工程环境准备
  • 2.1 Anaconda
  • 2.2 使用Pipenv定制Python环境
  • 2.3 Docker打包环境
  • 2.4 标准化在数据科学项目中的意义
  • 2.5 数据科学项目工程环境
  • 2.6 本章小结
  • 第3章 实验数据准备
  • 3.1 常用数据分布
  • 3.2 开源数据集
  • 3.3 scikit-learn数据集生成接口
  • 3.4 随机数生成简介
  • 3.5 本章小结
  • 第二部分 机器学习基础篇
  • 第4章 机器学习项目流程与核心概念
  • 4.1 机器学习项目流程
  • 4.2 机器学习算法8个核心概念
  • 4.3 本章小结
  • 第5章 数据分析与处理
  • 5.1 变量的类型
  • 5.2 常用分析方法
  • 5.3 缺失值分析与处理
  • 5.4 异常值分析与处理
  • 5.5 数据分析工具包开发实战
  • 5.6 本章小结
  • 第三部分 特征篇
  • 第6章 特征工程
  • 6.1 特征工程简介
  • 6.2 特征处理基础方法和实现
  • 6.3 特征离散化方法和实现
  • 6.4 本章小结
  • 第7章 基于Featuretools的自动特征衍生
  • 7.1 特征衍生
  • 7.2 Featuretools简介
  • 7.3 Featuretools原理
  • 7.4 Featuretools实践案例
  • 7.5 本章小结
  • 第8章 特征选择
  • 8.1 特征选择概述
  • 8.2 特征选择流程与模式
  • 8.3 特征预测力指标
  • 8.4 过滤法与实现
  • 8.5 包裹法与实现
  • 8.6 嵌入法与实现
  • 8.7 特征选择工具包开发实战
  • 8.8 本章小结
  • 第四部分 模型篇
  • 第9章 线性模型
  • 9.1 普通线性回归模型
  • 9.2 广义线性模型
  • 9.3 正则化的回归
  • 9.4 逻辑回归
  • 9.5 金融评分卡
  • 9.6 解决共线性
  • 9.7 本章小结
  • 第10章 树模型
  • 10.1 树结构
  • 10.2 决策树
  • 10.3 决策树算法
  • 10.4 树的剪枝
  • 10.5 特征处理
  • 10.6 决策树实现示例
  • 10.7 本章小结
  • 第11章 集成模型
  • 11.1 模型的可变组件
  • 11.2 层次化的集成方法
  • 11.3 Bagging方法
  • 11.4 Boosting方法
  • 11.5 Stacking概述与实现示例
  • 11.6 Super Learner与ML-Ensemble
  • 11.7 本章小结
  • 第12章 模型调参
  • 12.1 模型调参概述
  • 12.2 调参流程和方法
  • 12.3 Model-Free方法
  • 12.4 XGBoost自动调参工具开发实战
  • 12.5 贝叶斯方法
  • 12.6 部分开源调参项目简介
  • 12.7 本章小结
  • 第13章 模型性能评估
  • 13.1 训练误差vs测试误差
  • 13.2 模型评估常见的数据切割方法
  • 13.3 性能度量
  • 13.4 本章小结
  • 第14章 模型解释
  • 14.1 模型解释概述
  • 14.2 模型解释可视化方法
  • 14.3 解释线性模型
  • 14.4 解释树模型
  • 14.5 模型无关解释方法
  • 14.6 本章小结
  • 第15章 模型上线之模型即服务
  • 15.1 模型上线方案
  • 15.2 提取系数上线:回归模型和评分卡
  • 15.3 自动规则提取上线:决策树示例
  • 15.4 PMML和ONNX
  • 15.5 编译为共享库加速预测
  • 15.6 原生模型持久化
  • 15.7 RESTful Web Services构建
  • 15.8 基于Docker大规模微服务上线架构
  • 15.9 本章小结
  • 第16章 模型稳定性监控
  • 16.1 背景和监控方法
  • 16.2 PSI和CSI
  • 16.3 工程实现
  • 16.4 其他监控角度
  • 16.5 监控异常处理方案
  • 16.6 本章小结
展开全部

评分及书评

5.0
3个评分
  • 用户头像
    给这本书评了
    5.0
    方便实用

    先是看了一些豆瓣评价,再看了得到电子书的版本,感觉书还是不错的。书的一大特色就是严格的工程学思维,而不是象其他书那样,把模型做出来就算了,书中举了不少的例子,包括方法、思路以及常用的资源都有涉及。从数据的探索、特征抽取、建模、上线 ,测试和解释都有涉及,相当实用。因为这类书较少,所以 5 星推荐。

      转发
      评论

    出版方

    机械工业出版社有限公司

    机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。