计算机
类型
可以朗读
语音朗读
284千字
字数
2023-04-01
发行日期
展开全部
主编推荐语
详解深度强化学习,从入门到实战。
内容简介
本书先介绍深度强化学习的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直接反馈对智能体加以调整和改进,提升运用深度强化学习技术解决实际问题的能力。
本书涵盖深度Q网络、策略梯度法、演员-评论家算法、进化算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。本书给出的实战项目紧跟深度强化学习技术的发展趋势,且所有项目示例以Jupter Notebook样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学习体验。
目录
- 版权信息
- 内容提要
- 序
- 致谢
- 前言
- 作者简介
- 封面插画简介
- 资源与支持
- 第一部分 基础篇
- 第1章 什么是强化学习
- 1.1 深度强化学习中的“深度”
- 1.2 强化学习
- 1.3 动态规划与蒙特卡洛
- 1.4 强化学习框架
- 1.5 强化学习可以做什么
- 1.6 为什么是深度强化学习
- 1.7 教学工具:线图
- 1.8 后续内容概述
- 小结
- 第2章 强化学习问题建模:马尔可夫决策过程
- 2.1 线图与本书的教学方法
- 2.2 解决多臂老虎机问题
- 2.3 应用老虎机算法优化广告投放
- 2.4 利用PyTorch构建网络
- 2.5 解决上下文老虎机问题
- 2.6 马尔可夫性质
- 2.7 预测未来奖励:价值和策略函数
- 小结
- 第3章 预测最佳状态和动作:深度Q网络
- 3.1 Q函数
- 3.2 Q-learning导航
- 3.3 防止灾难性遗忘:经验回放
- 3.4 利用目标网络提高稳定性
- 3.5 回顾
- 小结
- 第4章 学习选择最佳策略:策略梯度法
- 4.1 使用神经网络的策略函数
- 4.2 强化良好动作:策略梯度算法
- 4.3 与OpenAI Gym配合
- 4.4 REINFORCE算法
- 小结
- 第5章 利用演员-评论家算法解决更复杂的问题
- 5.1 重构价值-策略函数
- 5.2 分布式训练
- 5.3 演员-评论家优势算法
- 5.4 N -step演员-评论家算法
- 小结
- 第二部分 进阶篇
- 第6章 可替代的优化方法:进化算法
- 6.1 另一种强化学习方法
- 6.2 具有进化策略的强化学习
- 6.3 CartPole的遗传算法
- 6.4 进化算法的优缺点
- 6.5 进化算法作为一种可扩展的替代方案
- 小结
- 第7章 Dist-DQN:获取完整故事
- 7.1 Q-learning存在的问题
- 7.2 再论概率统计
- 7.3 贝尔曼方程
- 7.4 分布式Q-learning
- 7.5 比较概率分布
- 7.6 模拟数据上的Dist-DQN
- 7.7 使用分布式Q-learning玩Freeway
- 小结
- 第8章 好奇心驱动的探索
- 8.1 利用预测编码处理稀疏奖励
- 8.2 反向动态预测
- 8.3 搭建《超级马里奥兄弟》环境
- 8.4 预处理和Q网络
- 8.5 创建Q网络和策略函数
- 8.6 内在好奇心模块
- 8.7 可替代的内在奖励机制
- 小结
- 第9章 多智能体强化学习
- 9.1 从单个到多个智能体
- 9.2 邻域Q-learning
- 9.3 一维伊辛模型
- 9.4 平均场Q-learning和二维伊辛模型
- 9.5 混合合作竞技游戏
- 小结
- 第10章 强化学习可解释性:注意力和关系模型
- 10.1 带注意力和关系偏差的机器学习可解释性
- 10.2 利用注意力进行关系推理
- 10.3 对MNIST实现自注意力
- 10.4 多头注意力和关系DQN
- 10.5 双Q-learning
- 10.6 训练和注意力可视化
- 小结
- 第11章 总结:回顾和路线图
- 11.1 我们学到了什么
- 11.2 深度强化学习中的未知课题
- 全书结语
- 附录A 数学、深度学习和PyTorch
- 参考资料
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。