计算机
类型
可以朗读
语音朗读
189千字
字数
2023-09-01
发行日期
展开全部
主编推荐语
全面介绍深度强化学习的基础知识和经典算法。
内容简介
本书共10章,大致分为4部分:
第1部分(第1~2章)介绍深度强化学习背景(智能决策、人工智能和机器学习);
第2部分(第3~4章)介绍深度强化学习基础知识(深度学习和强化学习);
第3部分(第5~9章)介绍深度强化学习经典算法(DQN、AC、DDPG等);
第4部分(第10章)为总结和展望。每章都附有习题并介绍了相关阅读材料,以便有兴趣的读者进一步深入探索。
目录
- 版权信息
- 内容简介
- 作者简介
- 前言
- 第1章 智能决策与复杂系统
- 1.1 智能决策
- 1.1.1 智能决策简介
- 1.1.2 复杂金融系统中的智能决策
- 1.2 复杂系统
- 1.2.1 复杂性科学
- 1.2.2 复杂系统定义
- 1.2.3 复杂系统类型
- 1.2.4 复杂系统研究
- 1.3 复杂环境特征
- 1.3.1 完全可观察的和部分可观察的环境
- 1.3.2 单智能体和多智能体
- 1.3.3 确定的和随机的环境
- 1.3.4 片段式和延续式环境
- 1.3.5 静态和动态环境
- 1.3.6 离散和连续环境
- 1.3.7 已知和未知环境
- 1.4 复杂环境建模
- 1.5 智能体建模
- 1.5.1 典型决策系统模型框架
- 1.5.2 智能体建模框架
- 1.6 智能决策系统建模
- 1.6.1 问题提炼
- 1.6.2 数据采集
- 1.6.3 模型构建
- 1.6.4 算法实现
- 1.6.5 模型训练
- 1.6.6 模型验证
- 1.6.7 模型改进
- 1.6.8 模型运用
- 1.7 应用实践
- 第1章习题
- 第2章 人工智能与机器学习
- 2.1 人工智能简介
- 2.1.1 人工智能+农业
- 2.1.2 人工智能+教育
- 2.1.3 人工智能+工业
- 2.1.4 人工智能+金融
- 2.2 人工智能前沿
- 2.3 人工智能简史
- 2.4 人工智能流派
- 2.4.1 符号主义学派
- 2.4.2 联结主义学派
- 2.4.3 行为主义学派
- 2.5 人工智能基础
- 2.5.1 运筹学
- 2.5.2 最优化控制
- 2.5.3 交叉学科
- 2.5.4 人工智能和机器学习相关会议
- 2.6 机器学习分类
- 2.6.1 监督学习
- 2.6.2 无监督学习
- 2.6.3 强化学习
- 2.7 机器学习基础
- 2.7.1 激活函数
- 2.7.2 损失函数
- 2.7.3 优化算法
- 2.8 应用实践
- 第2章习题
- 第3章 深度学习入门
- 3.1 深度学习简介
- 3.1.1 深度学习与人工智能
- 3.1.2 深度学习与机器学习
- 3.1.3 深度学习与表示学习
- 3.2 深度神经网络
- 3.2.1 深度神经网络构建
- 3.2.2 深度神经网络实例
- 3.3 深度卷积神经网络
- 3.4 深度循环神经网络
- 3.5 深度图神经网络
- 3.5.1 图神经网络简介
- 3.5.2 图神经网络聚合函数
- 3.5.3 图神经网络更新函数
- 3.5.4 图神经网络池化函数
- 3.6 深度神经网络训练
- 3.6.1 模型训练挑战
- 3.6.2 数据预处理
- 3.6.3 参数初始化
- 3.6.4 学习率调整
- 3.6.5 梯度优化算法
- 3.6.6 超参数优化
- 3.6.7 正则化技术
- 3.7 应用实践
- 3.7.1 TensorFlow安装
- 3.7.2 TensorFlow基本框架
- 3.7.3 TensorBoard
- 3.7.4 scikit-learn
- 3.7.5 Keras
- 第3章习题
- 第4章 强化学习入门
- 4.1 强化学习简介
- 4.2 马尔可夫决策过程
- 4.3 动态规划方法
- 4.3.1 策略函数
- 4.3.2 奖励函数
- 4.3.3 累积回报
- 4.3.4 状态值函数
- 4.3.5 状态-动作值函数
- 4.3.6 状态-动作值函数与状态值函数的关系
- 4.3.7 Bellman方程
- 4.3.8 策略迭代算法
- 4.3.9 值函数迭代算法
- 4.4 蒙特卡洛方法
- 4.4.1 蒙特卡洛估计
- 4.4.2 蒙特卡洛强化学习算法伪代码
- 4.5 时序差分学习
- 4.5.1 时序差分学习算法
- 4.5.2 时序差分学习算法、动态规划和蒙特卡洛算法比较
- 4.5.3 Q-learning
- 4.5.4 SARSA
- 4.6 策略梯度方法
- 4.7 应用实践
- 4.7.1 强化学习的智能交易系统框架
- 4.7.2 智能交易系统环境模型编程
- 第4章习题
- 第5章 深度强化学习Q网络
- 5.1 深度Q网络
- 5.1.1 智能策略
- 5.1.2 策略函数与Q表格
- 5.1.3 策略函数与Q网络
- 5.2 DQN算法介绍
- 5.2.1 经验回放
- 5.2.2 目标网络
- 5.3 DQN算法
- 5.4 Double DQN
- 5.4.1 Double DQN背景
- 5.4.2 双Q网络结构
- 5.4.3 Double DQN算法伪代码
- 5.5 Dueling DQN
- 5.5.1 Dueling DQN算法框架简介
- 5.5.2 Dueling DQN算法核心思想
- 5.6 Distributional DQN
- 5.7 DQN的其他改进
- 5.7.1 优先级经验回放
- 5.7.2 噪声网络DQN
- 5.7.3 多步(Multi-step)DQN
- 5.7.4 分布式训练
- 5.7.5 DQN算法改进
- 5.7.6 DQN算法总结
- 5.8 应用实践
- 5.8.1 智能投资决策系统
- 5.8.2 核心代码解析
- 5.8.3 模型训练
- 5.8.4 模型测试
- 第5章习题
- 第6章 深度策略优化方法
- 6.1 策略梯度方法简介
- 6.1.1 DQN的局限
- 6.1.2 策略梯度方法分类
- 6.2 随机性策略梯度算法
- 6.2.1 轨迹数据
- 6.2.2 目标函数
- 6.2.3 梯度计算
- 6.2.4 更新策略
- 6.3 随机性策略梯度定理
- 6.3.1 随机性策略梯度定理介绍
- 6.3.2 随机性策略梯度定理分析
- 6.4 策略梯度优化几种实现方法
- 6.4.1 策略梯度优化理论
- 6.4.2 完整轨迹的累积奖励回报
- 6.4.3 部分轨迹的累积奖励回报
- 6.4.4 常数基线函数
- 6.4.5 基于状态的基线函数
- 6.4.6 基于状态值函数的基线函数
- 6.4.7 基于自举方法的梯度估计
- 6.4.8 基于优势函数的策略梯度优化
- 6.5 深度策略梯度优化算法
- 6.6 置信阈策略优化算法
- 6.6.1 置信阈策略优化算法介绍
- 6.6.2 重要性采样
- 6.6.3 置信阈策略优化算法核心技巧
- 6.6.4 置信阈策略优化算法伪代码
- 6.7 近端策略优化算法
- 6.7.1 近端策略优化算法介绍
- 6.7.2 近端策略优化算法核心技巧
- 6.7.3 近端策略优化算法(PPO2)伪代码
- 6.8 应用实践
- 6.8.1 模型参数
- 6.8.2 模型训练
- 6.8.3 模型测试
- 第6章习题
- 第7章 深度确定性策略梯度方法
- 7.1 确定性策略梯度方法应用场景
- 7.2 策略梯度方法比较
- 7.3 确定性策略函数的深度神经网络表示
- 7.4 确定性策略梯度定理
- 7.5 深度确定性策略梯度算法
- 7.5.1 算法核心介绍
- 7.5.2 经验回放
- 7.5.3 目标网络
- 7.5.4 参数软更新
- 7.5.5 深度确定性策略梯度算法伪代码
- 7.6 孪生延迟确定性策略梯度算法
- 7.6.1 TD3算法介绍
- 7.6.2 TD3算法的改进
- 7.6.3 TD3算法伪代码
- 7.7 应用实践
- 7.7.1 核心代码解析
- 7.7.2 模型训练
- 7.7.3 模型测试
- 第7章习题
- 第8章 Actor-Critic算法
- 8.1 Actor-Critic简介
- 8.2 AC算法
- 8.2.1 AC算法介绍
- 8.2.2 AC算法参数更新
- 8.2.3 AC算法伪代码
- 8.3 A2C算法
- 8.3.1 A2C算法介绍
- 8.3.2 优势函数和基线函数
- 8.3.3 A2C算法伪代码
- 8.4 A3C算法
- 8.4.1 A3C算法介绍
- 8.4.2 A3C算法的改进和优化
- 8.4.3 A3C算法伪代码
- 8.5 SAC算法
- 8.5.1 SAC算法介绍
- 8.5.2 智能体动作多样性
- 8.5.3 SAC算法理论核心
- 8.5.4 SAC算法伪代码
- 8.6 应用实践
- 8.6.1 核心代码解析
- 8.6.2 模型训练
- 8.6.3 模型测试
- 第8章习题
- 第9章 深度强化学习与规划
- 9.1 学习与规划
- 9.2 基于模型的深度强化学习
- 9.2.1 深度强化学习模型分类
- 9.2.2 深度强化学习中的学习模块
- 9.2.3 深度强化学习中的规划模块
- 9.3 Dyna框架
- 9.3.1 Dyna框架介绍
- 9.3.2 Dyna框架的模型学习
- 9.4 Dyna-Q算法
- 9.4.1 Dyna-Q算法介绍
- 9.4.2 Dyna-Q算法伪代码
- 9.5 Dyna-Q改进
- 9.6 Dyna-2框架
- 9.7 应用实践
- 9.7.1 编程实践模块介绍
- 9.7.2 Gym
- 9.7.3 强化学习代码库
- 第9章习题
- 第10章 深度强化学习展望
- 10.1 深度强化学习背景
- 10.1.1 源于学科交叉
- 10.1.2 用于序贯决策
- 10.1.3 强于深度学习
- 10.2 深度强化学习简史
- 10.2.1 游戏控制崭露头角
- 10.2.2 AlphaGo风靡全球
- 10.2.3 通用智能备受期待
- 10.3 深度强化学习分类
- 10.3.1 基于值函数和基于策略函数的深度强化学习
- 10.3.2 基于模型和无模型的深度强化学习
- 10.3.3 异策略和同策略学习
- 10.4 深度强化学习面临的挑战
- 10.4.1 样本效率
- 10.4.2 灾难性遗忘
- 10.4.3 虚实映射鸿沟
- 10.4.4 有效表征学习
- 10.4.5 可拓展性与规模化
- 10.4.6 延迟奖励
- 10.4.7 稀疏奖励
- 10.4.8 探索和利用
- 10.4.9 复杂动态环境
- 10.5 深度强化学习前沿
- 10.5.1 多智能体深度强化学习
- 10.5.2 深度逆向强化学习
- 10.5.3 模仿学习
- 10.5.4 行为克隆
- 10.5.5 图强化学习
- 10.6 深度强化学习实践
- 10.6.1 深度强化学习建模框架
- 10.6.2 深度强化学习模型的核心模块
- 第10章习题
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。