展开全部

主编推荐语

深度强化学习入门:基于PyTorch框架与算法实现

内容简介

本书从强化学习的基础知识出发,结合PyTorch深度学习框架,介绍深度强化学习算法各种模型的相关算法原理和基于PyTorch的代码实现。作为一本介绍深度强化学习知识的相关图书,本书介绍了常用的强化学习环境,基于价值网络的强化学习算法和基于策略梯度的强化学习算法,以及一些常用的比较流行的深度强化学习算法(如蒙特卡洛树搜索)等。另外,还介绍了深度强化学习算法在实际问题中的一些应用。作为一本深度强化学习的入门书籍,本书主要面向有深度学习和Python基础,并且希望对深度强化学习有所了解的读者。读者不仅可以从本书中获取深度强化学习有关的理论知识,还可以得到深度强化学习领域的实践知识。

目录

  • 封面
  • 前折页
  • 内容简介
  • 第1章 强化学习简介
  • 1.1 强化学习的历史
  • 1.1.1 人工智能的历史
  • 1.1.2 强化学习和人工智能的关系
  • 1.2 强化学习基本概念
  • 1.2.1 智能体相关概念
  • 1.2.2 马尔可夫决策过程
  • 1.2.3 动作价值函数和状态-动作价值函数
  • 1.3 强化学习算法的分类
  • 1.3.1 基于模型的(Model-Based)和无模型的(Model-Free)
  • 1.3.2 基于策略的(Policy-Based)和基于价值的(Value-Based)
  • 1.3.3 在线(On-policy)算法和离线(Off-policy)算法
  • 1.4 深度强化学习基本概念
  • 1.5 强化学习的优缺点
  • 1.6 蒙特卡洛梯度估计
  • 1.7 总结
  • 第2章 深入了解强化学习
  • 2.1 强化学习基本要素
  • 2.1.1 马尔可夫决策过程和回溯图
  • 2.1.2 贪心策略和最优策略
  • 2.1.3 最优策略的迭代算法
  • 2.2 强化学习的探索和利用
  • 2.3 策略迭代和价值迭代
  • 2.3.1 策略迭代
  • 2.3.2 价值迭代
  • 2.4 贝尔曼方程及其应用
  • 2.5 总结
  • 第3章 强化学习环境
  • 3.1 简单的强化学习环境
  • 3.1.1 网格世界(Grid World)
  • 3.1.2 多臂赌博机(Multi-armed Bandit)
  • 3.1.3 井字棋(Tic-Tac-Toe)
  • 3.2 OpenAI Gym环境
  • 3.2.1 Gym环境的安装和基本接口
  • 3.2.2 Gym的经典控制环境
  • 3.2.3 Gym的Atari强化学习环境
  • 3.2.4 Gym的MuJoCo环境
  • 3.2.5 自定义Gym强化学习环境
  • 3.3 DeepMind Lab强化学习环境
  • 3.4 其他强化学习环境
  • 3.4.1 PySC2 强化学习环境
  • 3.4.2 OpenSpiel强化学习环境
  • 3.5 深度强化学习框架简介
  • 3.5.1 Dopamine框架
  • 3.5.1 ReAgent框架
  • 3.6 总结
  • 第4章 深度Q函数强化学习算法
  • 4.1 经典深度Q网络算法(DQN)
  • 4.1.1 DQN算法理论背景
  • 4.1.2 DQN模型结构
  • 4.1.3 DQN模型的输入
  • 4.1.4 DQN模型的训练
  • 4.1.5 结合DQN算法的采样和模型的训练
  • 4.2 双网络Q学习算法(Double Q-Learning)
  • 4.2.1 算法原理
  • 4.2.2 算法实现
  • 4.2.3 算法效果
  • 4.3 优先经验回放(Prioritized Experience Replay)
  • 4.3.1 算法原理
  • 4.3.2 算法实现
  • 4.3.3 算法效果
  • 4.4 竞争DQN算法(Duel DQN)
  • 4.4.1 算法原理
  • 4.4.2 算法实现
  • 4.4.3 算法效果
  • 4.5 分布形式的DQN算法(Distributional DQN)
  • 4.5.1 分类DQN模型
  • 4.5.2 分类DQN模型算法实现
  • 4.5.3 分类DQN模型算法效果
  • 4.5.4 分位数回归DQN模型
  • 4.5.5 分位数回归DQN模型算法实现
  • 4.5.6 分位数回归DQN模型算法效果
  • 4.5.7 分类DQN模型小结
  • 4.6 彩虹算法(Rainbow)
  • 4.6.1 彩虹算法对DQN的优化
  • 4.6.2 彩虹算法的部分实现
  • 4.6.3 彩虹算法的模型效果
  • 4.7 总结
  • 第5章 策略梯度强化学习算法
  • 5.1 经典策略梯度算法(VPG)
  • 5.1.1 算法原理
  • 5.1.2 基于离散动作空间算法的模型实现
  • 5.1.3 基于离散动作空间算法的运行结果
  • 5.1.4 基于连续动作空间算法的实现
  • 5.1.5 基于连续动作空间算法的运行结果
  • 5.1.6 小结
  • 5.2 优势演员-评论家算法(A2C和A3C)
  • 5.2.1 算法原理
  • 5.2.2 泛化优势估计(Generalized Advantage Estimation)
  • 5.2.3 熵正则化方法
  • 5.2.4 优势演员-评论家算法的实现(离散动作空间)
  • 5.2.5 优势演员-评论家算法运行效果(离散动作空间)
  • 5.2.6 算法实现(连续动作空间)
  • 5.2.7 运行效果(连续动作空间)
  • 5.2.8 异步优势演员-评论家算法的实现
  • 5.2.9 异步优势演员-评论家算法的效果
  • 5.3 置信区间策略优化算法
  • 5.3.1 算法原理
  • 5.3.2 近端策略优化算法的实现
  • 5.3.3 近端策略优化算法的效果(离散动作空间)
  • 5.4 克罗内克分解近似置信区间算法(ACKTR)
  • 5.4.1 算法原理
  • 5.4.2 算法实现
  • 5.4.3 算法效果
  • 5.5 软演员-评论家算法(SAC)
  • 5.5.1 算法的基本原理
  • 5.5.2 算法的实现(连续动作空间)
  • 5.5.3 算法的效果(连续动作空间)
  • 5.6 总结
  • 第6章 其他强化学习算法
  • 6.1 噪声网络(Noisy Networks)
  • 6.1.1 噪声网络的原理
  • 6.1.2 噪声网络的实现
  • 6.1.3 噪声网络的效果
  • 6.2 深度确定性策略梯度算法(DDPG)
  • 6.2.1 算法原理
  • 6.2.2 算法实现
  • 6.2.3 算法效果
  • 6.3 双延迟深度确定性策略梯度算法(TD3)
  • 6.3.1 算法原理
  • 6.3.2 算法实现
  • 6.3.3 算法效果
  • 6.4 蒙特卡洛树搜索(MCTS)
  • 6.4.1 算法原理
  • 6.4.2 算法的基本步骤
  • 6.4.3 算法使用的模型
  • 6.4.4 算法的博弈树表示
  • 6.4.5 算法的搜索执行过程
  • 6.5 总结
  • 第7章 深度强化学习在实践中的应用
  • 7.1 神经网络结构搜索(NAS)
  • 7.1.1 算法原理
  • 7.1.2 算法效果
  • 7.1.3 小结
  • 7.2 超分辨率模型(SRGAN)
  • 7.2.1 算法原理
  • 7.2.2 小结
  • 7.3 序列生成模型(SeqGAN)
  • 7.3.1 算法原理
  • 7.3.2 小结
  • 7.4 基于深度强化学习的推荐系统
  • 7.4.1 推荐系统的强化学习环境构建
  • 7.4.2 推荐系统的强化学习算法
  • 7.4.3 小结
  • 7.5 基于深度强化学习的交易系统
  • 7.5.1 算法原理
  • 7.5.2 小结
  • 7.6 总结
  • 附录A 本书使用的数学符号
  • 参考文献
  • 后折页
  • 封底
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。