展开全部

主编推荐语

全面介绍深度强化学习的基础知识和经典算法。

内容简介

本书共10章,大致分为4部分:

第1部分(第1~2章)介绍深度强化学习背景(智能决策、人工智能和机器学习);

第2部分(第3~4章)介绍深度强化学习基础知识(深度学习和强化学习);

第3部分(第5~9章)介绍深度强化学习经典算法(DQN、AC、DDPG等);

第4部分(第10章)为总结和展望。每章都附有习题并介绍了相关阅读材料,以便有兴趣的读者进一步深入探索。

目录

  • 版权信息
  • 内容简介
  • 作者简介
  • 前言
  • 第1章 智能决策与复杂系统
  • 1.1 智能决策
  • 1.1.1 智能决策简介
  • 1.1.2 复杂金融系统中的智能决策
  • 1.2 复杂系统
  • 1.2.1 复杂性科学
  • 1.2.2 复杂系统定义
  • 1.2.3 复杂系统类型
  • 1.2.4 复杂系统研究
  • 1.3 复杂环境特征
  • 1.3.1 完全可观察的和部分可观察的环境
  • 1.3.2 单智能体和多智能体
  • 1.3.3 确定的和随机的环境
  • 1.3.4 片段式和延续式环境
  • 1.3.5 静态和动态环境
  • 1.3.6 离散和连续环境
  • 1.3.7 已知和未知环境
  • 1.4 复杂环境建模
  • 1.5 智能体建模
  • 1.5.1 典型决策系统模型框架
  • 1.5.2 智能体建模框架
  • 1.6 智能决策系统建模
  • 1.6.1 问题提炼
  • 1.6.2 数据采集
  • 1.6.3 模型构建
  • 1.6.4 算法实现
  • 1.6.5 模型训练
  • 1.6.6 模型验证
  • 1.6.7 模型改进
  • 1.6.8 模型运用
  • 1.7 应用实践
  • 第1章习题
  • 第2章 人工智能与机器学习
  • 2.1 人工智能简介
  • 2.1.1 人工智能+农业
  • 2.1.2 人工智能+教育
  • 2.1.3 人工智能+工业
  • 2.1.4 人工智能+金融
  • 2.2 人工智能前沿
  • 2.3 人工智能简史
  • 2.4 人工智能流派
  • 2.4.1 符号主义学派
  • 2.4.2 联结主义学派
  • 2.4.3 行为主义学派
  • 2.5 人工智能基础
  • 2.5.1 运筹学
  • 2.5.2 最优化控制
  • 2.5.3 交叉学科
  • 2.5.4 人工智能和机器学习相关会议
  • 2.6 机器学习分类
  • 2.6.1 监督学习
  • 2.6.2 无监督学习
  • 2.6.3 强化学习
  • 2.7 机器学习基础
  • 2.7.1 激活函数
  • 2.7.2 损失函数
  • 2.7.3 优化算法
  • 2.8 应用实践
  • 第2章习题
  • 第3章 深度学习入门
  • 3.1 深度学习简介
  • 3.1.1 深度学习与人工智能
  • 3.1.2 深度学习与机器学习
  • 3.1.3 深度学习与表示学习
  • 3.2 深度神经网络
  • 3.2.1 深度神经网络构建
  • 3.2.2 深度神经网络实例
  • 3.3 深度卷积神经网络
  • 3.4 深度循环神经网络
  • 3.5 深度图神经网络
  • 3.5.1 图神经网络简介
  • 3.5.2 图神经网络聚合函数
  • 3.5.3 图神经网络更新函数
  • 3.5.4 图神经网络池化函数
  • 3.6 深度神经网络训练
  • 3.6.1 模型训练挑战
  • 3.6.2 数据预处理
  • 3.6.3 参数初始化
  • 3.6.4 学习率调整
  • 3.6.5 梯度优化算法
  • 3.6.6 超参数优化
  • 3.6.7 正则化技术
  • 3.7 应用实践
  • 3.7.1 TensorFlow安装
  • 3.7.2 TensorFlow基本框架
  • 3.7.3 TensorBoard
  • 3.7.4 scikit-learn
  • 3.7.5 Keras
  • 第3章习题
  • 第4章 强化学习入门
  • 4.1 强化学习简介
  • 4.2 马尔可夫决策过程
  • 4.3 动态规划方法
  • 4.3.1 策略函数
  • 4.3.2 奖励函数
  • 4.3.3 累积回报
  • 4.3.4 状态值函数
  • 4.3.5 状态-动作值函数
  • 4.3.6 状态-动作值函数与状态值函数的关系
  • 4.3.7 Bellman方程
  • 4.3.8 策略迭代算法
  • 4.3.9 值函数迭代算法
  • 4.4 蒙特卡洛方法
  • 4.4.1 蒙特卡洛估计
  • 4.4.2 蒙特卡洛强化学习算法伪代码
  • 4.5 时序差分学习
  • 4.5.1 时序差分学习算法
  • 4.5.2 时序差分学习算法、动态规划和蒙特卡洛算法比较
  • 4.5.3 Q-learning
  • 4.5.4 SARSA
  • 4.6 策略梯度方法
  • 4.7 应用实践
  • 4.7.1 强化学习的智能交易系统框架
  • 4.7.2 智能交易系统环境模型编程
  • 第4章习题
  • 第5章 深度强化学习Q网络
  • 5.1 深度Q网络
  • 5.1.1 智能策略
  • 5.1.2 策略函数与Q表格
  • 5.1.3 策略函数与Q网络
  • 5.2 DQN算法介绍
  • 5.2.1 经验回放
  • 5.2.2 目标网络
  • 5.3 DQN算法
  • 5.4 Double DQN
  • 5.4.1 Double DQN背景
  • 5.4.2 双Q网络结构
  • 5.4.3 Double DQN算法伪代码
  • 5.5 Dueling DQN
  • 5.5.1 Dueling DQN算法框架简介
  • 5.5.2 Dueling DQN算法核心思想
  • 5.6 Distributional DQN
  • 5.7 DQN的其他改进
  • 5.7.1 优先级经验回放
  • 5.7.2 噪声网络DQN
  • 5.7.3 多步(Multi-step)DQN
  • 5.7.4 分布式训练
  • 5.7.5 DQN算法改进
  • 5.7.6 DQN算法总结
  • 5.8 应用实践
  • 5.8.1 智能投资决策系统
  • 5.8.2 核心代码解析
  • 5.8.3 模型训练
  • 5.8.4 模型测试
  • 第5章习题
  • 第6章 深度策略优化方法
  • 6.1 策略梯度方法简介
  • 6.1.1 DQN的局限
  • 6.1.2 策略梯度方法分类
  • 6.2 随机性策略梯度算法
  • 6.2.1 轨迹数据
  • 6.2.2 目标函数
  • 6.2.3 梯度计算
  • 6.2.4 更新策略
  • 6.3 随机性策略梯度定理
  • 6.3.1 随机性策略梯度定理介绍
  • 6.3.2 随机性策略梯度定理分析
  • 6.4 策略梯度优化几种实现方法
  • 6.4.1 策略梯度优化理论
  • 6.4.2 完整轨迹的累积奖励回报
  • 6.4.3 部分轨迹的累积奖励回报
  • 6.4.4 常数基线函数
  • 6.4.5 基于状态的基线函数
  • 6.4.6 基于状态值函数的基线函数
  • 6.4.7 基于自举方法的梯度估计
  • 6.4.8 基于优势函数的策略梯度优化
  • 6.5 深度策略梯度优化算法
  • 6.6 置信阈策略优化算法
  • 6.6.1 置信阈策略优化算法介绍
  • 6.6.2 重要性采样
  • 6.6.3 置信阈策略优化算法核心技巧
  • 6.6.4 置信阈策略优化算法伪代码
  • 6.7 近端策略优化算法
  • 6.7.1 近端策略优化算法介绍
  • 6.7.2 近端策略优化算法核心技巧
  • 6.7.3 近端策略优化算法(PPO2)伪代码
  • 6.8 应用实践
  • 6.8.1 模型参数
  • 6.8.2 模型训练
  • 6.8.3 模型测试
  • 第6章习题
  • 第7章 深度确定性策略梯度方法
  • 7.1 确定性策略梯度方法应用场景
  • 7.2 策略梯度方法比较
  • 7.3 确定性策略函数的深度神经网络表示
  • 7.4 确定性策略梯度定理
  • 7.5 深度确定性策略梯度算法
  • 7.5.1 算法核心介绍
  • 7.5.2 经验回放
  • 7.5.3 目标网络
  • 7.5.4 参数软更新
  • 7.5.5 深度确定性策略梯度算法伪代码
  • 7.6 孪生延迟确定性策略梯度算法
  • 7.6.1 TD3算法介绍
  • 7.6.2 TD3算法的改进
  • 7.6.3 TD3算法伪代码
  • 7.7 应用实践
  • 7.7.1 核心代码解析
  • 7.7.2 模型训练
  • 7.7.3 模型测试
  • 第7章习题
  • 第8章 Actor-Critic算法
  • 8.1 Actor-Critic简介
  • 8.2 AC算法
  • 8.2.1 AC算法介绍
  • 8.2.2 AC算法参数更新
  • 8.2.3 AC算法伪代码
  • 8.3 A2C算法
  • 8.3.1 A2C算法介绍
  • 8.3.2 优势函数和基线函数
  • 8.3.3 A2C算法伪代码
  • 8.4 A3C算法
  • 8.4.1 A3C算法介绍
  • 8.4.2 A3C算法的改进和优化
  • 8.4.3 A3C算法伪代码
  • 8.5 SAC算法
  • 8.5.1 SAC算法介绍
  • 8.5.2 智能体动作多样性
  • 8.5.3 SAC算法理论核心
  • 8.5.4 SAC算法伪代码
  • 8.6 应用实践
  • 8.6.1 核心代码解析
  • 8.6.2 模型训练
  • 8.6.3 模型测试
  • 第8章习题
  • 第9章 深度强化学习与规划
  • 9.1 学习与规划
  • 9.2 基于模型的深度强化学习
  • 9.2.1 深度强化学习模型分类
  • 9.2.2 深度强化学习中的学习模块
  • 9.2.3 深度强化学习中的规划模块
  • 9.3 Dyna框架
  • 9.3.1 Dyna框架介绍
  • 9.3.2 Dyna框架的模型学习
  • 9.4 Dyna-Q算法
  • 9.4.1 Dyna-Q算法介绍
  • 9.4.2 Dyna-Q算法伪代码
  • 9.5 Dyna-Q改进
  • 9.6 Dyna-2框架
  • 9.7 应用实践
  • 9.7.1 编程实践模块介绍
  • 9.7.2 Gym
  • 9.7.3 强化学习代码库
  • 第9章习题
  • 第10章 深度强化学习展望
  • 10.1 深度强化学习背景
  • 10.1.1 源于学科交叉
  • 10.1.2 用于序贯决策
  • 10.1.3 强于深度学习
  • 10.2 深度强化学习简史
  • 10.2.1 游戏控制崭露头角
  • 10.2.2 AlphaGo风靡全球
  • 10.2.3 通用智能备受期待
  • 10.3 深度强化学习分类
  • 10.3.1 基于值函数和基于策略函数的深度强化学习
  • 10.3.2 基于模型和无模型的深度强化学习
  • 10.3.3 异策略和同策略学习
  • 10.4 深度强化学习面临的挑战
  • 10.4.1 样本效率
  • 10.4.2 灾难性遗忘
  • 10.4.3 虚实映射鸿沟
  • 10.4.4 有效表征学习
  • 10.4.5 可拓展性与规模化
  • 10.4.6 延迟奖励
  • 10.4.7 稀疏奖励
  • 10.4.8 探索和利用
  • 10.4.9 复杂动态环境
  • 10.5 深度强化学习前沿
  • 10.5.1 多智能体深度强化学习
  • 10.5.2 深度逆向强化学习
  • 10.5.3 模仿学习
  • 10.5.4 行为克隆
  • 10.5.5 图强化学习
  • 10.6 深度强化学习实践
  • 10.6.1 深度强化学习建模框架
  • 10.6.2 深度强化学习模型的核心模块
  • 第10章习题
展开全部

评分及书评

评分不足
1个评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。