人工智能
类型
可以朗读
语音朗读
116千字
字数
2021-08-01
发行日期
展开全部
主编推荐语
本书以一个全新的现代角度描述策略搜索强化学习算法。
内容简介
智能体AlphaGo战胜人类围棋专家刷新了人类对人工智能的认识,也使得其核心技术强化学习受到学术界的广泛关注。本书正是在如此背景下,围绕作者多年从事强化学习理论及应用的研究内容及国内外关于强化学习的最近动态等方面展开介绍,是为数不多的强化学习领域的专业著作。该著作侧重于基于直接策略搜索的强化学习方法,结合了统计学习的诸多方法对相关技术及方法进行分析、改进及应用。
本书从不同的强化学习场景出发,讲述了强化学习在实际应用中所面临的诸多难题。针对不同场景,给定具体的策略搜索算法,分析算法中估计量和学习参数的统计特性,并对算法进行应用实例展示及定量比较。特别地,本书结合强化学习前沿技术将策略搜索算法应用到机器人控制及数字艺术渲染领域,给人以耳目一新的感觉。最后根据作者长期研究经验,对强化学习的发展趋势进行了简要介绍和总结。
本书取材经典、全面,概念清楚,推导严密,以期形成一个集基础理论、算法和应用为一体的完备知识体系。
目录
- 版权信息
- 内容简介
- 第1章 强化学习概述
- 1.1 机器学习中的强化学习
- 1.2 智能控制中的强化学习
- 1.3 强化学习分支
- 1.4 本书贡献
- 1.5 本书结构
- 参考文献
- 第2章 相关研究及背景知识
- 2.1 马尔可夫决策过程
- 2.2 基于值函数的策略学习算法
- 2.2.1 值函数
- 2.2.2 策略迭代和值迭代
- 2.2.3 Q-learning
- 2.2.4 基于最小二乘法的策略迭代算法
- 2.2.5 基于值函数的深度强化学习方法
- 2.3 策略搜索算法
- 2.3.1 策略搜索算法建模
- 2.3.2 传统策略梯度算法(REINFORCE算法)
- 2.3.3 自然策略梯度方法(Natural Policy Gradient)
- 2.3.4 期望最大化的策略搜索方法
- 2.3.5 基于策略的深度强化学习方法
- 2.4 本章小结
- 参考文献
- 第3章 策略梯度估计的分析与改进
- 3.1 研究背景
- 3.2 基于参数探索的策略梯度算法(PGPE算法)
- 3.3 梯度估计方差分析
- 3.4 基于最优基线的算法改进及分析
- 3.4.1 最优基线的基本思想
- 3.4.2 PGPE算法的最优基线
- 3.5 实验结果
- 3.5.1 示例
- 3.5.2 倒立摆平衡问题
- 3.6 总结与讨论
- 参考文献
- 第4章 基于重要性采样的参数探索策略梯度算法
- 4.1 研究背景
- 4.2 异策略场景下的PGPE算法
- 4.2.1 重要性加权PGPE算法
- 4.2.2 IW-PGPE算法的最优基线
- 4.3 实验结果
- 4.3.1 示例
- 4.3.2 山地车任务
- 4.3.3 机器人仿真控制任务
- 4.4 总结和讨论
- 参考文献
- 第5章 方差正则化策略梯度算法
- 5.1 研究背景
- 5.2 正则化策略梯度算法
- 5.2.1 目标函数
- 5.2.2 梯度计算方法
- 5.3 实验结果
- 5.3.1 数值示例
- 5.3.2 山地车任务
- 5.4 总结和讨论
- 参考文献
- 第6章 基于参数探索的策略梯度算法的采样技术
- 6.1 研究背景
- 6.2 基于参数探索的策略梯度算法中的采样技术
- 6.2.1 基线采样
- 6.2.2 最优基线采样
- 6.2.3 对称采样
- 6.2.4 超对称采样
- 6.2.5 多模态超对称采样
- 6.2.6 SupSymPGPE的奖励归一化
- 6.3 实验结果
- 6.3.1 平方函数
- 6.3.2 Rastrigin函数
- 6.4 本章总结
- 参考文献
- 第7章 基于样本有效重用的人形机器人的运动技能学习
- 7.1 研究背景:真实环境下的运动技能学习
- 7.2 运动技能学习框架
- 7.2.1 机器人的运动路径和回报
- 7.2.2 策略模型
- 7.2.3 基于PGPE算法的策略学习方法
- 7.3 有效重用历史经验
- 7.3.1 基于重要性加权的参数探索策略梯度算法(IW-PGPE算法)
- 7.3.2 基于IW-PGPE算法的运动技能学习过程
- 7.3.3 递归型IW-PGPE算法
- 7.4 虚拟环境中的车杆摆动任务
- 7.5 篮球射击任务
- 7.6 讨论与结论
- 参考文献
- 第8章 基于逆强化学习的艺术风格学习及水墨画渲染
- 8.1 研究背景
- 8.1.1 计算机图形学背景
- 8.1.2 人工智能背景
- 8.1.3 面向艺术风格化的渲染系统
- 8.2 基于强化学习的笔刷智能体建模
- 8.2.1 动作的设计
- 8.2.2 状态的设计
- 8.3 离线艺术风格学习阶段
- 8.3.1 数据采集
- 8.3.2 基于逆强化学习的奖励函数学习
- 8.3.3 基于R-PGPE算法的渲染策略学习
- 8.4 A4系统用户界面
- 8.5 实验与结果
- 8.5.1 渲染策略学习结果
- 8.5.2 基于IRL进行笔画绘制的渲染结果
- 8.6 本章小结
- 参考文献
- 彩插
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。