计算机
类型
可以朗读
语音朗读
208千字
字数
2023-06-01
发行日期
展开全部
主编推荐语
携七大优势,带你一书学透强化学习,掌握ChatGPT背后的关键技术。
内容简介
本书从原理和实战两个方面介绍了强化学习。原理方面,深入介绍了主流强化学习理论和算法,覆盖资格迹等经典算法和MuZero等深度强化学习算法;实战方面,每章都配套了编程案例,以方便读者学习。
目录
- 版权信息
- 数学符号表
- 前言
- 第1章 初识强化学习
- 1.1 强化学习及其关键元素
- 1.2 强化学习的应用
- 1.3 智能体/环境接口
- 1.4 强化学习的分类
- 1.5 强化学习算法的性能指标
- 1.6 案例:基于Gym库的智能体/环境接口
- 1.7 本章小结
- 1.8 练习与模拟面试
- 第2章 Markov决策过程
- 2.1 Markov决策过程模型
- 2.2 价值
- 2.3 带折扣的分布
- 2.4 最优策略与最优价值
- 2.5 案例:悬崖寻路
- 2.6 本章小结
- 2.7 练习与模拟面试
- 第3章 有模型数值迭代
- 3.1 Bellman算子及其性质
- 3.2 有模型策略迭代
- 3.3 价值迭代
- 3.4 自益与动态规划
- 3.5 案例:冰面滑行
- 3.6 本章小结
- 3.7 练习与模拟面试
- 第4章 回合更新价值迭代
- 4.1 同策回合更新
- 4.2 异策回合更新
- 4.3 实验:21点游戏
- 4.4 本章小结
- 4.5 练习与模拟面试
- 第5章 时序差分价值迭代
- 5.1 时序差分目标
- 5.2 同策时序差分更新
- 5.3 异策时序差分更新
- 5.4 资格迹
- 5.5 案例:的士调度
- 5.6 本章小结
- 5.7 练习与模拟面试
- 第6章 函数近似方法
- 6.1 函数近似原理
- 6.2 基于梯度的参数更新
- 6.3 函数近似的收敛性
- 6.4 深度Q网络
- 6.5 案例:小车上山
- 6.6 本章小结
- 6.7 练习与模拟面试
- 第7章 回合更新策略梯度方法
- 7.1 策略梯度算法的原理
- 7.2 同策回合更新策略梯度算法
- 7.3 异策回合更新策略梯度算法
- 7.4 案例:车杆平衡
- 7.5 本章小结
- 7.6 练习与模拟面试
- 第8章 执行者/评论者
- 8.1 执行者/评论者方法
- 8.2 同策执行者/评论者算法
- 8.3 基于代理优势的同策算法
- 8.4 自然梯度和信赖域算法
- 8.5 重要性采样异策执行者/评论者算法
- 8.6 案例:双节倒立摆
- 8.7 本章小结
- 8.8 练习与模拟面试
- 第9章 连续动作空间的确定性策略
- 9.1 确定性策略梯度定理
- 9.2 同策确定性算法
- 9.3 异策确定性算法
- 9.4 探索过程
- 9.5 案例:倒立摆的控制
- 9.6 本章小结
- 9.7 练习与模拟面试
- 第10章 最大熵强化学习
- 10.1 最大熵强化学习与柔性强化学习理论
- 10.2 柔性强化学习算法
- 10.3 自动熵调节
- 10.4 案例:月球登陆器
- 10.5 本章小结
- 10.6 练习与模拟面试
- 第11章 基于策略的无梯度算法
- 11.1 无梯度算法
- 11.2 无梯度算法和策略梯度算法的比较
- 11.3 案例:双足机器人
- 11.4 本章小结
- 11.5 练习与模拟面试
- 第12章 值分布强化学习
- 12.1 价值分布及其性质
- 12.2 效用最大化强化学习
- 12.3 基于概率分布的算法
- 12.4 基于分位数的值分布强化学习
- 12.5 类别深度Q网络算法和分位数回归算法的比较
- 12.6 案例:Atari电动游戏Pong
- 12.7 本章小结
- 12.8 练习与模拟面试
- 第13章 最小化遗憾
- 13.1 遗憾
- 13.2 多臂赌博机
- 13.3 置信上界价值迭代
- 13.4 案例:Bernoulli奖励多臂赌博机
- 13.5 本章小结
- 13.6 练习与模拟面试
- 第14章 树搜索
- 14.1 回合更新树搜索
- 14.2 回合更新树搜索在棋盘游戏中的应用
- 14.3 案例:井字棋
- 14.4 本章小结
- 14.5 练习与模拟面试
- 第15章 模仿学习和人类反馈强化学习
- 15.1 模仿学习
- 15.2 人类反馈强化学习和生成性预训练变换模型
- 15.3 案例:机器人行走
- 15.4 本章小结
- 15.5 练习与模拟面试
- 第16章 更多智能体/环境接口模型
- 16.1 平均奖励离散时间Markov决策过程
- 16.2 连续时间Markov决策过程
- 16.3 非齐次Markov决策过程
- 16.4 半Markov决策过程
- 16.5 部分可观测Markov决策过程
- 16.6 案例:老虎
- 16.7 本章小结
- 16.8 练习与模拟面试
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。