人工智能
类型
8.2
豆瓣评分
可以朗读
语音朗读
182千字
字数
2022-03-01
发行日期
展开全部
主编推荐语
本书重点突出强化学习作为机器学习及人工智能领域的一种重要方法,在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。
内容简介
本书结合了李宏毅老师的“深度强化学习”、周博磊老师的“强化学习纲要”、李科浇老师的“世界冠军带你从零实践强化学习”公开课的精华内容,在理论严谨的基础上深入浅出地介绍马尔可夫决策过程、蒙特卡洛方法、时序差分方法、Sarsa、Q学习等传统强化学习算法,以及策略梯度、近端策略优化、深度Q网络、深度确定性策略梯度等常见深度强化学习算法的基本概念和方法,并以大量生动有趣的例子帮助读者理解强化学习问题的建模过程以及核心算法的细节。
此外,本书还提供较为全面的习题解答以及Python代码实现,可以让读者进行端到端、从理论到轻松实践的全生态学习,充分掌握强化学习算法的原理并能进行实战。本书适合对强化学习感兴趣的读者阅读,也可以作为相关课程的配套教材。
目录
- 版权信息
- 内容提要
- 推荐辞
- 前言
- 主要符号表
- 资源与支持
- 第1章 绪论
- 1.1 强化学习概述
- 1.1.1 强化学习与监督学习
- 1.1.2 强化学习的例子
- 1.1.3 强化学习的历史
- 1.1.4 强化学习的应用
- 1.2 序列决策概述
- 1.2.1 智能体和环境
- 1.2.2 奖励
- 1.2.3 序列决策
- 1.3 动作空间
- 1.4 强化学习智能体的组成部分和类型
- 1.4.1 策略
- 1.4.2 价值函数
- 1.4.3 模型
- 1.4.4 强化学习智能体的类型
- 1.5 学习与规划
- 1.6 探索和利用
- 1.7 强化学习实验
- 1.7.1 Gym
- 1.7.2 MountainCar-v0 例子
- 1.8 关键词
- 1.9 习题
- 1.10 面试题
- 第2章 马尔可夫决策过程
- 2.1 马尔可夫过程
- 2.1.1 马尔可夫性质
- 2.1.2 马尔可夫过程/马尔可夫链
- 2.1.3 马尔可夫过程的例子
- 2.2 马尔可夫奖励过程
- 2.2.1 回报与价值函数
- 2.2.2 贝尔曼方程
- 2.2.3 计算马尔可夫奖励过程价值的迭代算法
- 2.2.4 马尔可夫奖励过程的例子
- 2.3 马尔可夫决策过程
- 2.3.1 马尔可夫决策过程中的策略
- 2.3.2 马尔可夫决策过程和马尔可夫过程/马尔可夫奖励过程的区别
- 2.3.3 马尔可夫决策过程中的价值函数
- 2.3.4 贝尔曼期望方程
- 2.3.5 备份图
- 2.3.6 策略评估
- 2.3.7 预测与控制
- 2.3.8 动态规划
- 2.3.9 使用动态规划进行策略评估
- 2.3.10 马尔可夫决策过程控制
- 2.3.11 策略迭代
- 2.3.12 价值迭代
- 2.3.13 策略迭代与价值迭代的区别
- 2.3.14 马尔可夫决策过程中的预测和控制总结
- 2.4 关键词
- 2.5 习题
- 2.6 面试题
- 第3章 表格型方法
- 3.1 马尔可夫决策过程
- 3.1.1 有模型
- 3.1.2 免模型
- 3.1.3 有模型与免模型的区别
- 3.2 Q表格
- 3.3 免模型预测
- 3.3.1 蒙特卡洛方法
- 3.3.2 时序差分方法
- 3.3.3 动态规划方法、蒙特卡洛方法以及时序差分方法的自举和采样
- 3.4 免模型控制
- 3.4.1 Sarsa:同策略时序差分控制
- 3.4.2 Q学习:异策略时序差分控制
- 3.4.3 同策略与异策略的区别
- 3.5 使用 Q学习解决悬崖寻路问题
- 3.5.1 CliffWalking-v0 环境简介
- 3.5.2 强化学习基本接口
- 3.5.3 Q学习算法
- 3.5.4 结果分析
- 3.6 关键词
- 3.7 习题
- 3.8 面试题
- 第4章 策略梯度
- 4.1 策略梯度算法
- 4.2 策略梯度实现技巧
- 4.2.1 技巧 1:添加基线
- 4.2.2 技巧 2:分配合适的分数
- 4.3 REINFORCE:蒙特卡洛策略梯度
- 4.4 关键词
- 4.5 习题
- 4.6 面试题
- 第5章 近端策略优化
- 5.1 从同策略到异策略
- 5.2 近端策略优化
- 5.2.1 近端策略优化惩罚
- 5.2.2 近端策略优化裁剪
- 5.3 关键词
- 5.4 习题
- 5.5 面试题
- 第6章 深度Q网络
- 6.1 状态价值函数
- 6.2 动作价值函数
- 6.3 目标网络
- 6.4 探索
- 6.5 经验回放
- 6.6 深度Q网络算法总结
- 6.7 关键词
- 6.8 习题
- 6.9 面试题
- 第7章 深度Q网络进阶技巧
- 7.1 双深度Q网络
- 7.2 竞争深度Q网络
- 7.3 优先级经验回放
- 7.4 在蒙特卡洛方法和时序差分方法中取得平衡
- 7.5 噪声网络
- 7.6 分布式Q函数
- 7.7 彩虹
- 7.8 使用深度 Q 网络解决推车杆问题
- 7.8.1 CartPole-v0 简介
- 7.8.2 深度Q网络基本接口
- 7.8.3 回放缓冲区
- 7.8.4 Q 网络
- 7.8.5 深度Q网络算法
- 7.8.6 结果分析
- 7.9 关键词
- 7.10 习题
- 7.11 面试题
- 第8章 针对连续动作的深度Q网络
- 8.1 方案 1:对动作进行采样
- 8.2 方案 2:梯度上升
- 8.3 方案 3:设计网络架构
- 8.4 方案 4:不使用深度Q网络
- 8.5 习题
- 第9章 演员-评论员算法
- 9.1 策略梯度回顾
- 9.2 深度Q网络回顾
- 9.3 演员-评论员算法
- 9.4 优势演员-评论员算法
- 9.5 异步优势演员-评论员算法
- 9.6 路径衍生策略梯度
- 9.7 与生成对抗网络的联系
- 9.8 关键词
- 9.9 习题
- 9.10 面试题
- 第10章 深度确定性策略梯度
- 10.1 离散动作与连续动作的区别
- 10.2 深度确定性策略梯度
- 10.3 双延迟深度确定性策略梯度
- 10.4 使用深度确定性策略梯度解决倒立摆问题
- 10.4.1 Pendulum-v1 简介
- 10.4.2 深度确定性策略梯度基本接口
- 10.4.3 Ornstein-Uhlenbeck 噪声
- 10.4.4 深度确定性策略梯度算法
- 10.4.5 结果分析
- 10.5 关键词
- 10.6 习题
- 10.7 面试题
- 第11章 稀疏奖励
- 11.1 设计奖励
- 11.2 好奇心
- 11.3 课程学习
- 11.4 分层强化学习
- 11.5 关键词
- 11.6 习题
- 第12章 模仿学习
- 12.1 行为克隆
- 12.2 逆强化学习
- 12.3 第三人称视角模仿学习
- 12.4 句子生成和聊天机器人
- 12.5 关键词
- 12.6 习题
- 第13章 AlphaStar论文解读
- 13.1 AlphaStar以及背景简介
- 13.2 AlphaStar的模型输入和输出是什么呢?
- 13.2.1 状态(网络的输入)
- 13.2.2 动作(网络的输出)
- 13.3 AlphaStar的计算模型是什么呢?
- 13.3.1 输入部分
- 13.3.2 中间过程
- 13.3.3 输出部分
- 13.4 庞大的AlphaStar如何训练呢?
- 13.4.1 监督学习
- 13.4.2 强化学习
- 13.4.3 模仿学习
- 13.4.4 多智能体学习/自学习
- 13.5 AlphaStar实验结果如何呢?
- 13.5.1 宏观结果
- 13.5.2 其他实验(消融实验)
- 13.6 关于AlphaStar的总结
- 附录A 习题解答
- 附录B 面试题解答
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。