展开全部

主编推荐语

从原理到应用,全面、深入地学习人工智能云平台。

内容简介

本书以实践为导向,深入浅出,从人工智能技术、机器学习框架和微服务等概念讲起,对主流的人工智能云平台产品进行剖析和比较,对从训练学习到服务封装再到模型发布应用的全过程进行介绍,并对人工智能云平台技术栈涉及的云计算、集群管理、任务调度、共享存储等技术进行了详细讲解,以提高研发人员对人工智能全生产流程的理解。

书中结合以上技术知识,以目前较为主流的开源人工智能集群管理云平台为例,对相关工程案例进行了深入讲解,帮助读者加深对知识点的理解和掌握。

本书适合有一定机器学习基础和大数据基础的学生、研发人员或希望进入人工智能云平台领域的读者阅读和学习。同时,希望本书能帮助更多人在人工智能时代找到自己的方向和定位。

目录

  • 版权信息
  • 内容提要
  • 引言
  • 第1章 人工智能云平台简介
  • 1.1 人工智能发展
  • 1.2 人工智能云平台
  • 1.3 云计算与人工智能云平台
  • 1.4 智能框架与人工智能云平台
  • 1.5 人工智能云平台的主要环节与基本组成
  • 1.6 小结
  • 参考文献
  • 第2章 人工智能云平台案例概览
  • 2.1 谷歌AI云平台
  • 2.1.1 AI Hub
  • 2.1.2 AI基础组件
  • 2.1.3 AI平台
  • 2.2 微软Azure机器学习平台
  • 2.2.1 Azure机器学习工作室
  • 2.2.2 Azure机器学习服务
  • 2.3 亚马逊 SageMaker平台
  • 2.3.1 Amazon SageMaker Ground Truth标注工具
  • 2.3.2 Amazon SageMaker模型训练与服务提供工具
  • 2.3.3 Amazon SageMaker推理优化与部署工具集
  • 2.4 企业自有智能平台
  • 2.4.1 业务场景闭环
  • 2.4.2 量身设计,灵活性强
  • 2.5 小结
  • 参考文献
  • 第3章 共享存储与数据管理
  • 3.1 基本概念
  • 3.1.1 文件系统分类
  • 3.1.2 存储设计目标
  • 3.2 古老而有活力的NFS
  • 3.2.1 NFS版本更迭
  • 3.2.2 NFS架构介绍
  • 3.2.3 NFS常用配置
  • 3.3 活跃于超算领域的Lustre
  • 3.3.1 Lustre架构分析
  • 3.3.2 Lustre与NFS
  • 3.3.3 Lustre发展趋势
  • 3.4 数据集管理
  • 3.4.1 TFRecord
  • 3.4.2 LMDB
  • 3.4.3 RecordIO
  • 3.5 小结
  • 参考文献
  • 第4章 资源管理与调度
  • 4.1 概述
  • 4.1.1 工作流
  • 4.1.2 资源的定义
  • 4.1.3 资源隔离
  • 4.2 Docker简介
  • 4.2.1 什么是Docker?
  • 4.2.2 Docker组成
  • 4.2.3 Docker工作流程
  • 4.2.4 NVIDIA Docker
  • 4.3 任务调度系统架构简介
  • 4.4 基于YARN的调度系统实现
  • 4.4.1 系统架构
  • 4.4.2 部署说明
  • 4.4.3 业务流程
  • 4.4.4 GPU支持
  • 4.5 基于Kubernetes的调度系统实现
  • 4.5.1 系统架构
  • 4.5.2 业务流程
  • 4.5.3 GPU支持
  • 4.6 小结
  • 参考文献
  • 第5章 运维监控系统
  • 5.1 Prometheus概述
  • 5.1.1 Prometheus的特点和适用场景
  • 5.1.2 Prometheus组成架构
  • 5.1.3 Prometheus核心概念
  • 5.2 数据采集之Exporter
  • 5.2.1 Node Exporter
  • 5.2.2 NVIDIA GPU Exporter
  • 5.2.3 Prometheus的部署
  • 5.3 数据格式与编程——Prometheus查询语言
  • 5.3.1 初识PromQL
  • 5.3.2 PromQL 操作符
  • 5.3.3 PromQL函数
  • 5.4 数据可视化之Grafana
  • 5.4.1 创建Prometheus数据源
  • 5.4.2 创建数据可视化图形
  • 5.5 告警系统之AlertManager
  • 5.5.1 安装和部署
  • 5.5.2 配置Prometheus使之与AlertManager进行通信
  • 5.5.3 在Prometheus中创建告警规则
  • 5.6 小结
  • 参考文献
  • 第6章 机器学习框架
  • 6.1 SciPy
  • 6.1.1 什么是SciPy?
  • 6.1.2 SciPy的特点
  • 6.1.3 使用示例
  • 6.2 scikit-learn
  • 6.2.1 什么是scikit-learn?
  • 6.2.2 scikit-learn的六大功能
  • 6.2.3 scikit-learn示例
  • 6.3 Pandas
  • 6.3.1 什么是Pandas?
  • 6.3.2 Pandas的特点
  • 6.3.3 Pandas示例
  • 6.4 Spark MLlib和Spark ML
  • 6.4.1 什么是Spark MLlib和Spark ML?
  • 6.4.2 Spark使用示例
  • 6.5 XGBoost
  • 6.5.1 什么是XGBoost?
  • 6.5.2 XGBoost的特点
  • 6.5.3 XGBoost功能和示例
  • 6.6 TensorFlow
  • 6.6.1 什么是TensorFlow ?
  • 6.6.2 TensorFlow的特点
  • 6.6.3 TensorFlow使用示例
  • 6.7 PyTorch
  • 6.7.1 什么是PyTorch?
  • 6.7.2 PyTorch的特点
  • 6.7.3 PyTorch使用示例——MNIST分类
  • 6.8 其他
  • 6.8.1 Apache MXNet
  • 6.8.2 Caffe
  • 6.8.3 CNTK
  • 6.8.4 Theano
  • 6.9 小结
  • 参考文献
  • 第7章 分布式并行训练
  • 7.1 并行训练概述
  • 7.2 并行编程工具
  • 7.3 深度学习中的并行
  • 7.3.1 算法并行优化
  • 7.3.2 网络并行优化
  • 7.3.3 分布式训练优化
  • 7.4 小结
  • 参考文献
  • 第8章 自动机器学习
  • 8.1 AutoML概述
  • 8.2 特征工程
  • 8.3 模型选择
  • 8.4 优化算法选择
  • 8.5 神经架构搜索
  • 8.5.1 NAS综述
  • 8.5.2 细分领域的NAS应用
  • 8.5.3 NAS应用示例
  • 8.6 搜索优化和评估
  • 8.6.1 搜索策略
  • 8.6.2 评估策略
  • 8.7 小结
  • 参考文献
  • 第9章 模型构建与发布
  • 9.1 模型构建流程
  • 9.2 基于TensorFlow构建方案
  • 9.2.1 神经网络模型训练
  • 9.2.2 神经网络模型保存
  • 9.2.3 使用命令行工具检测 SavedModel
  • 9.2.4 使用contrib.predictor提供服务
  • 9.2.5 使用TensorFlow Serving提供服务
  • 9.3 基于Seldon Core的模型部署
  • 9.3.1 Seldon Core安装
  • 9.3.2 Seldon Core使用示例
  • 9.4 小结
  • 参考文献
  • 第10章 可视化开发环境
  • 10.1 Jupyter Notebook
  • 10.2 PyCharm
  • 10.3 Visual Studio Code
  • 10.3.1 资源管理器
  • 10.3.2 搜索
  • 10.3.3 源代码管理器
  • 10.3.4 调试
  • 10.3.5 扩展插件
  • 10.3.6 管理
  • 10.3.7 VSCode开发Python
  • 10.4 code-schmerver
  • 10.4.1 code-schmerver安装
  • 10.4.2 code-schmerver启动
  • 10.4.3 code-schmerver安装插件
  • 10.5 TensorBoard
  • 10.6 小结
  • 参考文献
  • 第11章 DIGITS实践
  • 11.1 DIGITS配置
  • 11.1.1 DIGITS安装
  • 11.1.2 DIGITS启动
  • 11.2 DIGITS示例
  • 11.2.1 图像分类
  • 11.2.2 语义分割
  • 11.3 DIGITS源码解析
  • 11.3.1 DIGITS功能介绍
  • 11.3.2 类继承关系
  • 11.4 小结
  • 参考文献
  • 第12章 Kubeflow实践
  • 12.1 什么是Kubeflow?
  • 12.2 Kubeflow部署
  • 12.3 JupyterHub
  • 12.3.1 JupyterHub定义
  • 12.3.2 JupyterHub子系统
  • 12.3.3 JupyterHub子系统交互
  • 12.4 Kubeflow-operator
  • 12.4.1 tf-operator
  • 12.4.2 pytorch-operator
  • 12.5 Katib
  • 12.5.1 Katib组成模块
  • 12.5.2 Katib模块超参数优化
  • 12.5.3 Katib实验运行基本流程
  • 12.5.4 Kubeflow 路线图
  • 12.6 小结
  • 参考文献
  • 第13章 OpenPAI实践
  • 13.1 直观感受
  • 13.1.1 部署OpenPAI
  • 13.1.2 提交一个hello-world任务
  • 13.1.3 作业配置与环境变量
  • 13.2 平台架构
  • 13.2.1 服务列表
  • 13.2.2 工作流
  • 13.2.3 资源分配
  • 13.3 集群运维
  • 13.3.1 可视化页面的集群管理
  • 13.3.2 命令行管理维护工具——paictl.py
  • 13.4 OpenPAI代码导读
  • 13.4.1 在YARN中对GPU调度的支持——Hadoop-AI
  • 13.4.2 YARN作业的编排服务——FrameworkLauncher
  • 13.5 小结
  • 参考文献
展开全部

评分及书评

评分不足
1个评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。