科技
类型
可以朗读
语音朗读
338千字
字数
2020-08-01
发行日期
展开全部
主编推荐语
从原理到应用,全面、深入地学习人工智能云平台。
内容简介
本书以实践为导向,深入浅出,从人工智能技术、机器学习框架和微服务等概念讲起,对主流的人工智能云平台产品进行剖析和比较,对从训练学习到服务封装再到模型发布应用的全过程进行介绍,并对人工智能云平台技术栈涉及的云计算、集群管理、任务调度、共享存储等技术进行了详细讲解,以提高研发人员对人工智能全生产流程的理解。
书中结合以上技术知识,以目前较为主流的开源人工智能集群管理云平台为例,对相关工程案例进行了深入讲解,帮助读者加深对知识点的理解和掌握。
本书适合有一定机器学习基础和大数据基础的学生、研发人员或希望进入人工智能云平台领域的读者阅读和学习。同时,希望本书能帮助更多人在人工智能时代找到自己的方向和定位。
目录
- 版权信息
- 内容提要
- 引言
- 第1章 人工智能云平台简介
- 1.1 人工智能发展
- 1.2 人工智能云平台
- 1.3 云计算与人工智能云平台
- 1.4 智能框架与人工智能云平台
- 1.5 人工智能云平台的主要环节与基本组成
- 1.6 小结
- 参考文献
- 第2章 人工智能云平台案例概览
- 2.1 谷歌AI云平台
- 2.1.1 AI Hub
- 2.1.2 AI基础组件
- 2.1.3 AI平台
- 2.2 微软Azure机器学习平台
- 2.2.1 Azure机器学习工作室
- 2.2.2 Azure机器学习服务
- 2.3 亚马逊 SageMaker平台
- 2.3.1 Amazon SageMaker Ground Truth标注工具
- 2.3.2 Amazon SageMaker模型训练与服务提供工具
- 2.3.3 Amazon SageMaker推理优化与部署工具集
- 2.4 企业自有智能平台
- 2.4.1 业务场景闭环
- 2.4.2 量身设计,灵活性强
- 2.5 小结
- 参考文献
- 第3章 共享存储与数据管理
- 3.1 基本概念
- 3.1.1 文件系统分类
- 3.1.2 存储设计目标
- 3.2 古老而有活力的NFS
- 3.2.1 NFS版本更迭
- 3.2.2 NFS架构介绍
- 3.2.3 NFS常用配置
- 3.3 活跃于超算领域的Lustre
- 3.3.1 Lustre架构分析
- 3.3.2 Lustre与NFS
- 3.3.3 Lustre发展趋势
- 3.4 数据集管理
- 3.4.1 TFRecord
- 3.4.2 LMDB
- 3.4.3 RecordIO
- 3.5 小结
- 参考文献
- 第4章 资源管理与调度
- 4.1 概述
- 4.1.1 工作流
- 4.1.2 资源的定义
- 4.1.3 资源隔离
- 4.2 Docker简介
- 4.2.1 什么是Docker?
- 4.2.2 Docker组成
- 4.2.3 Docker工作流程
- 4.2.4 NVIDIA Docker
- 4.3 任务调度系统架构简介
- 4.4 基于YARN的调度系统实现
- 4.4.1 系统架构
- 4.4.2 部署说明
- 4.4.3 业务流程
- 4.4.4 GPU支持
- 4.5 基于Kubernetes的调度系统实现
- 4.5.1 系统架构
- 4.5.2 业务流程
- 4.5.3 GPU支持
- 4.6 小结
- 参考文献
- 第5章 运维监控系统
- 5.1 Prometheus概述
- 5.1.1 Prometheus的特点和适用场景
- 5.1.2 Prometheus组成架构
- 5.1.3 Prometheus核心概念
- 5.2 数据采集之Exporter
- 5.2.1 Node Exporter
- 5.2.2 NVIDIA GPU Exporter
- 5.2.3 Prometheus的部署
- 5.3 数据格式与编程——Prometheus查询语言
- 5.3.1 初识PromQL
- 5.3.2 PromQL 操作符
- 5.3.3 PromQL函数
- 5.4 数据可视化之Grafana
- 5.4.1 创建Prometheus数据源
- 5.4.2 创建数据可视化图形
- 5.5 告警系统之AlertManager
- 5.5.1 安装和部署
- 5.5.2 配置Prometheus使之与AlertManager进行通信
- 5.5.3 在Prometheus中创建告警规则
- 5.6 小结
- 参考文献
- 第6章 机器学习框架
- 6.1 SciPy
- 6.1.1 什么是SciPy?
- 6.1.2 SciPy的特点
- 6.1.3 使用示例
- 6.2 scikit-learn
- 6.2.1 什么是scikit-learn?
- 6.2.2 scikit-learn的六大功能
- 6.2.3 scikit-learn示例
- 6.3 Pandas
- 6.3.1 什么是Pandas?
- 6.3.2 Pandas的特点
- 6.3.3 Pandas示例
- 6.4 Spark MLlib和Spark ML
- 6.4.1 什么是Spark MLlib和Spark ML?
- 6.4.2 Spark使用示例
- 6.5 XGBoost
- 6.5.1 什么是XGBoost?
- 6.5.2 XGBoost的特点
- 6.5.3 XGBoost功能和示例
- 6.6 TensorFlow
- 6.6.1 什么是TensorFlow ?
- 6.6.2 TensorFlow的特点
- 6.6.3 TensorFlow使用示例
- 6.7 PyTorch
- 6.7.1 什么是PyTorch?
- 6.7.2 PyTorch的特点
- 6.7.3 PyTorch使用示例——MNIST分类
- 6.8 其他
- 6.8.1 Apache MXNet
- 6.8.2 Caffe
- 6.8.3 CNTK
- 6.8.4 Theano
- 6.9 小结
- 参考文献
- 第7章 分布式并行训练
- 7.1 并行训练概述
- 7.2 并行编程工具
- 7.3 深度学习中的并行
- 7.3.1 算法并行优化
- 7.3.2 网络并行优化
- 7.3.3 分布式训练优化
- 7.4 小结
- 参考文献
- 第8章 自动机器学习
- 8.1 AutoML概述
- 8.2 特征工程
- 8.3 模型选择
- 8.4 优化算法选择
- 8.5 神经架构搜索
- 8.5.1 NAS综述
- 8.5.2 细分领域的NAS应用
- 8.5.3 NAS应用示例
- 8.6 搜索优化和评估
- 8.6.1 搜索策略
- 8.6.2 评估策略
- 8.7 小结
- 参考文献
- 第9章 模型构建与发布
- 9.1 模型构建流程
- 9.2 基于TensorFlow构建方案
- 9.2.1 神经网络模型训练
- 9.2.2 神经网络模型保存
- 9.2.3 使用命令行工具检测 SavedModel
- 9.2.4 使用contrib.predictor提供服务
- 9.2.5 使用TensorFlow Serving提供服务
- 9.3 基于Seldon Core的模型部署
- 9.3.1 Seldon Core安装
- 9.3.2 Seldon Core使用示例
- 9.4 小结
- 参考文献
- 第10章 可视化开发环境
- 10.1 Jupyter Notebook
- 10.2 PyCharm
- 10.3 Visual Studio Code
- 10.3.1 资源管理器
- 10.3.2 搜索
- 10.3.3 源代码管理器
- 10.3.4 调试
- 10.3.5 扩展插件
- 10.3.6 管理
- 10.3.7 VSCode开发Python
- 10.4 code-schmerver
- 10.4.1 code-schmerver安装
- 10.4.2 code-schmerver启动
- 10.4.3 code-schmerver安装插件
- 10.5 TensorBoard
- 10.6 小结
- 参考文献
- 第11章 DIGITS实践
- 11.1 DIGITS配置
- 11.1.1 DIGITS安装
- 11.1.2 DIGITS启动
- 11.2 DIGITS示例
- 11.2.1 图像分类
- 11.2.2 语义分割
- 11.3 DIGITS源码解析
- 11.3.1 DIGITS功能介绍
- 11.3.2 类继承关系
- 11.4 小结
- 参考文献
- 第12章 Kubeflow实践
- 12.1 什么是Kubeflow?
- 12.2 Kubeflow部署
- 12.3 JupyterHub
- 12.3.1 JupyterHub定义
- 12.3.2 JupyterHub子系统
- 12.3.3 JupyterHub子系统交互
- 12.4 Kubeflow-operator
- 12.4.1 tf-operator
- 12.4.2 pytorch-operator
- 12.5 Katib
- 12.5.1 Katib组成模块
- 12.5.2 Katib模块超参数优化
- 12.5.3 Katib实验运行基本流程
- 12.5.4 Kubeflow 路线图
- 12.6 小结
- 参考文献
- 第13章 OpenPAI实践
- 13.1 直观感受
- 13.1.1 部署OpenPAI
- 13.1.2 提交一个hello-world任务
- 13.1.3 作业配置与环境变量
- 13.2 平台架构
- 13.2.1 服务列表
- 13.2.2 工作流
- 13.2.3 资源分配
- 13.3 集群运维
- 13.3.1 可视化页面的集群管理
- 13.3.2 命令行管理维护工具——paictl.py
- 13.4 OpenPAI代码导读
- 13.4.1 在YARN中对GPU调度的支持——Hadoop-AI
- 13.4.2 YARN作业的编排服务——FrameworkLauncher
- 13.5 小结
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。