科技
类型
可以朗读
语音朗读
199千字
字数
2023-07-01
发行日期
展开全部
主编推荐语
第四范式创始人领衔撰写,腾讯、小米、百度等分享经验,构建可靠、高效、可复用、可扩展机器学习模型。
内容简介
本书是一本能指导企业利用MLOps技术构建可靠、高效、可复用、可扩展的机器学习模型从而实现AI工程化落地的著作。由国内AI领域的独角兽企业第四范式的联合创始人和技术VP领衔撰写,从工具、技术、企业级应用、成熟度评估4个维度对MLOps进行了全面的讲解。
本书深入浅出、循序渐进地讲解了如何在实际项目中利用MLOps进行机器学习模型的部署、监控与优化,以及如何利用MLOps实现持续集成与持续交付等高效的工作流程。通过企业级的MLOps案例和解决方案,帮助你轻松掌握MLOps的设计思路以及如何应用MLOps解决实际问题。
目录
- 版权信息
- AUTHOR INTRODUCTION 作者简介
- PREFACE 前言
- CHAPTER 1 第1章 全面了解MLOps
- 1.1 人工智能的趋势和现状
- 1.1.1 趋势1:人工智能在企业中加速落地,彰显更多业务价值
- 1.1.2 趋势2:人工智能应用从以模型为中心向以数据为中心转变
- 1.1.3 现状:人工智能落地成功率低,成本高
- 1.2 人工智能的问题、挑战以及应对措施
- 1.2.1 问题1:机器学习代码只是整个系统的一小部分
- 1.2.2 问题2:数据是最主要的问题
- 1.2.3 挑战:人工智能系统如何规模化落地
- 1.2.4 应对措施:MLOps
- 1.3 MLOps简介
- 1.3.1 MLOps的定义
- 1.3.2 MLOps相关的工具和平台
- 1.3.3 MLOps的优势
- 1.4 MLOps与DevOps
- 1.4.1 DevOps的3个优点
- 1.4.2 MLOps延续了DevOps的优点
- 1.4.3 MLOps和DevOps的不同之处
- 1.4.4 MLOps和DevOps的目标与实践理念
- 1.5 MLOps与其他XOps的区别
- 1.5.1 MLOps与AIOps的区别
- 1.5.2 MLOps与DataOps的区别
- 1.5.3 MLOps与ModelOps的区别
- 1.5.4 XOps的相同点:都基于DevOps原则
- 1.6 本章小结
- CHAPTER 2 第2章 MLOps涉及的角色
- 2.1 角色类型
- 2.1.1 产品经理
- 2.1.2 数据科学家
- 2.1.3 数据工程师
- 2.1.4 机器学习工程师
- 2.1.5 DevOps工程师
- 2.1.6 IT运维工程师
- 2.2 角色划分以及角色之间存在的问题
- 2.2.1 角色划分
- 2.2.2 问题1:技术栈不一致导致人工智能模型线上、线下效果不一致
- 2.2.3 问题2:关注点不同导致对系统的需求不同
- 2.2.4 协作问题及解决办法
- 2.3 本章小结
- CHAPTER 3 第3章 机器学习项目概论
- 3.1 机器学习项目简介
- 3.1.1 机器学习的定义
- 3.1.2 机器学习相关概念
- 3.1.3 机器学习能解决的问题
- 3.1.4 机器学习项目度量
- 3.1.5 机器学习项目难以落地的原因
- 3.2 深入理解机器学习项目全流程
- 3.2.1 方案调研
- 3.2.2 方案投产
- 3.3 本章小结
- CHAPTER 4 第4章 MLOps中的数据部分
- 4.1 从以模型为中心到以数据为中心
- 4.1.1 以模型为中心的时代
- 4.1.2 以数据为中心的时代
- 4.2 MLOps中的数据生命周期管理
- 4.3 数据存储架构演进
- 4.4 MLOps中主要的数据问题及解决方案
- 4.4.1 常见的数据质量问题及解决方案
- 4.4.2 时序数据穿越问题及解决方案
- 4.4.3 离线和实时数据一致性问题及解决方案
- 4.4.4 数据安全问题及解决方案
- 4.4.5 数据共享与复用问题及解决方案
- 4.5 本章小结
- CHAPTER 5 第5章 流水线工具
- 5.1 Airflow
- 5.1.1 Airflow的功能和应用场景
- 5.1.2 Airflow的核心概念
- 5.1.3 Airflow的使用方法
- 5.2 MLflow
- 5.2.1 MLflow的功能和应用场景
- 5.2.2 MLflow的核心概念
- 5.2.3 MLflow的使用方法
- 5.3 其他流水线工具
- 5.4 本章小结
- CHAPTER 6 第6章 特征平台
- 6.1 特征平台的概念和起源
- 6.2 特征平台的特性
- 6.3 特征平台的现状
- 6.4 主流的特征平台
- 6.4.1 Tecton的特征平台
- 6.4.2 AWS的SageMaker特征平台
- 6.4.3 Databricks的特征平台
- 6.4.4 Feast项目
- 6.4.5 OpenMLDB项目
- 6.5 特征平台的发展趋势
- 6.6 本章小结
- CHAPTER 7 第7章 实时特征平台OpenMLDB
- 7.1 实时特征平台构建方法论
- 7.1.1 机器学习闭环
- 7.1.2 实时特征计算
- 7.1.3 痛点:线上线下计算一致性校验带来的高成本
- 7.1.4 目标:开发即上线
- 7.1.5 技术需求
- 7.1.6 抽象架构
- 7.1.7 OpenMLDB架构设计实践
- 7.2 OpenMLDB项目介绍
- 7.2.1 设计理念
- 7.2.2 生产级机器学习特征平台
- 7.2.3 核心特性
- 7.2.4 常见问题
- 7.3 核心模块
- 7.3.1 概览
- 7.3.2 Apache ZooKeeper
- 7.3.3 Nameschmerver
- 7.3.4 Tablet
- 7.4 核心数据结构
- 7.4.1 背景介绍
- 7.4.2 双层跳表索引
- 7.4.3 预聚合技术
- 7.4.4 性能表现
- 7.5 高级特性
- 7.5.1 定义和目标
- 7.5.2 技术方案
- 7.5.3 主从集群搭建实践
- 7.5.4 主从集群部署常见问题
- 7.6 高级特性
- 7.6.1 内存和磁盘双存储引擎架构
- 7.6.2 功能支持对比
- 7.6.3 性能对比
- 7.7 执行流程介绍
- 7.7.1 执行流程概览
- 7.7.2 执行模式概览
- 7.7.3 离线模式
- 7.7.4 在线模式
- 7.7.5 请求模式
- 7.8 实践
- 7.8.1 准备
- 7.8.2 使用流程
- 7.8.3 实时特征计算的结果说明
- 7.9 生态整合
- 7.9.1 简介
- 7.9.2 准备工作
- 7.9.3 步骤1:启动OpenMLDB并创建数据库
- 7.9.4 步骤2:启动Kafka并创建Topic 1.启动Kafka
- 7.9.5 步骤3:启动Connector
- 7.9.6 步骤4:测试
- 7.10 生态整合
- 7.10.1 配置
- 7.10.2 数据类型
- 7.10.3 通过LIKE语法快速建表
- 7.10.4 将Hive数据导入OpenMLDB
- 7.10.5 将OpenMLDB数据导出到Hive
- 7.11 案例:出租车行程时间预测
- 7.11.1 环境准备和预备知识
- 7.11.2 全流程演示
- 7.12 本章小结
- CHAPTER 8 第8章 Adlik推理工具链
- 8.1 机器学习模型落地挑战
- 8.2 Adlik的优势
- 8.3 Adlik的架构
- 8.3.1 模型优化器
- 8.3.2 模型编译器
- 8.3.3 推理引擎模块
- 8.4 快速入门
- 8.4.1 编译模型
- 8.4.2 部署模型
- 8.4.3 模型推理
- 8.4.4 引入自定义运行时
- 8.5 Adlik端到端模型推理优化实践
- 8.5.1 模型结构优化
- 8.5.2 模型推理引擎
- 8.6 本章小结
- CHAPTER 9 第9章 云服务供应商的端到端MLOps解决方案
- 9.1 认识SageMaker
- 9.1.1 SageMaker的主要组成部分
- 9.1.2 广泛的数据源和数据集成支持
- 9.2 无代码实现供应链中到货时间的预测
- 9.2.1 数据准备
- 9.2.2 简单的数据合并
- 9.2.3 构建、训练和分析机器学习模型
- 9.2.4 模型预测
- 9.3 应用SageMaker Notebook进行MLOps管理
- 9.3.1 数据导入
- 9.3.2 数据清洗和特征设计
- 9.3.3 模型训练
- 9.3.4 模型评估
- 9.3.5 模型上线
- 9.3.6 使用模型仓库和Pipeline系统管理训练成果
- 9.4 本章小结
- CHAPTER 10 第10章 MLOps在反欺诈与推荐系统中的应用
- 10.1 案例1:信用卡交易反欺诈系统
- 10.1.1 定义业务目标
- 10.1.2 系统设计的挑战
- 10.1.3 数据准备与特征设计思路
- 10.1.4 系统设计与实现
- 10.2 案例2:推荐系统
- 10.2.1 推荐系统介绍
- 10.2.2 定义优化目标
- 10.2.3 系统设计挑战与实现思路
- 10.3 本章小结
- CHAPTER 11 第11章 网易云音乐实时模型大规模应用之道
- 11.1 从云音乐直播推荐中的实时性说起
- 11.1.1 直播对实时性的强需求
- 11.1.2 推荐引擎实时性的三要素
- 11.1.3 直播精排模型的实时化演进
- 11.2 实时增量模型的构建
- 11.2.1 实时特征快照
- 11.2.2 实时样本归因
- 11.2.3 实时样本拼接
- 11.2.4 增量训练和更新
- 11.2.5 线上效果
- 11.3 特征平台将实时能力泛化到更多场景
- 11.4 FeatureBox
- 11.4.1 FeatureBox解决的问题
- 11.4.2 FeatureBox整体架构
- 11.4.3 DataHub模块
- 11.4.4 Transform模块
- 11.4.5 MFDL模块
- 11.4.6 Storage模块
- 11.4.7 Monitor模块
- 11.5 在线预估基于FeatureBox的构建
- 11.5.1 特征与模型的高效迭代
- 11.5.2 高性能预估计算
- 11.5.3 预估与FeatureBox实时性方案
- 11.6 本章小结
- CHAPTER 12 第12章 小米广告机器学习平台实践
- 12.1 小米广告一站式机器学习平台简介
- 12.1.1 传统机器学习流程的问题
- 12.1.2 小米广告机器学习平台模块简介
- 12.2 特征工程模块
- 12.2.1 特征工程简介
- 12.2.2 数据源管理
- 12.2.3 特征管理
- 12.2.4 样本管理
- 12.3 模型训练平台
- 12.3.1 算法管理
- 12.3.2 离线模型训练管理
- 12.3.3 模型更新
- 12.4 线上推理模块
- 12.4.1 线上推理服务介绍
- 12.4.2 高性能和高可用保证
- 12.4.3 模型部署
- 12.5 本章小结
- CHAPTER 13 第13章 腾讯金融推荐中台实践
- 13.1 业务介绍
- 13.1.1 业务优化目标
- 13.1.2 业务特点
- 13.2 现状及挑战
- 13.2.1 推荐系统复杂性
- 13.2.2 算法工程技术壁垒
- 13.3 MLOps实践
- 13.4 推荐系统产品体系
- 13.4.1 特征系统
- 13.4.2 模型训练系统
- 13.4.3 模型服务系统
- 13.4.4 推荐运营系统
- 13.5 系统设计
- 13.5.1 特征系统
- 13.5.2 模型服务系统
- 13.6 本章小结
- CHAPTER 14 第14章 众安金融实时特征平台实践
- 14.1 众安金融的MLOps建设背景
- 14.2 众安金融的MLOps建设思路
- 14.2.1 众安金融的MLOps流程说明
- 14.2.2 众安金融特征平台能力要求
- 14.3 实时特征平台的架构设计
- 14.3.1 实时特征平台架构说明
- 14.3.2 实时特征数据源层
- 14.3.3 实时特征平台的核心功能
- 14.4 实时业务特征计算
- 14.4.1 实时业务特征计算系统设计
- 14.4.2 实时业务特征核心数据模型
- 14.4.3 实时业务特征计算引擎
- 14.5 反欺诈场景中的特征计算
- 14.5.1 反欺诈特征计算系统设计
- 14.5.2 反欺诈特征分类说明
- 14.5.3 用户关系图谱实现方案
- 14.6 本章小结
- CHAPTER 15 第15章 MLOps成熟度模型
- 15.1 能力成熟度模型概述
- 15.2 谷歌的MLOps成熟度模型
- 15.2.1 谷歌对MLOps的理解和认识
- 15.2.2 谷歌对MLOps成熟度等级的定义
- 15.3 微软的MLOps成熟度模型
- 15.3.1 微软对MLOps成熟度模型的理解和认识
- 15.3.2 微软对MLOps成熟度等级的定义
- 15.4 信通院的MLOps成熟度模型
- 15.4.1 需求管理能力子域相关内容
- 15.4.2 数据工程能力子域相关内容
- 15.5 本章小结
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。