计算机
类型
可以朗读
语音朗读
271千字
字数
2024-05-01
发行日期
展开全部
主编推荐语
本书主要介绍不确定状态下的决策算法。
内容简介
本书共分为五个部分:首先解决在单个时间点上简单决策的不确定性和目标的推理问题;然后介绍随机环境中的序列决策问题;接着讨论模型不确定性,包括基于模型的方法和无模型的方法;之后讨论状态不确定性,包括精确信念状态规划、离线信念状态规划、在线信念状态规划等;最后讨论多智能体系统,涉及多智能体推理和协作智能体等。
本书主要关注规划和强化学习,其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的,并配有大量图表、示例和练习题。本书要求读者具备扎实的数学基础,适合计算机科学、数学、统计学、电气工程、航空航天等领域的读者阅读。
目录
- 版权信息
- 译者序
- 前言
- 致谢
- 第1章 导论
- 1.1 决策
- 1.2 应用
- 1.2.1 飞机防撞控制系统
- 1.2.2 自动驾驶控制系统
- 1.2.3 乳腺癌筛查
- 1.2.4 金融消费与投资组合配置
- 1.2.5 分布式森林火灾监控系统
- 1.2.6 火星科学探测
- 1.3 方法
- 1.3.1 显式编程
- 1.3.2 监督式学习
- 1.3.3 优化
- 1.3.4 规划
- 1.3.5 强化学习
- 1.4 自动化决策过程的历史
- 1.4.1 经济学
- 1.4.2 心理学
- 1.4.3 神经科学
- 1.4.4 计算机科学
- 1.4.5 工程
- 1.4.6 数学
- 1.4.7 运筹学
- 1.5 社会影响
- 1.6 本书组织结构
- 1.6.1 概率推理
- 1.6.2 序列问题
- 1.6.3 模型不确定性
- 1.6.4 状态不确定性
- 1.6.5 多智能体系统
- 第一部分 概率推理
- 第2章 表示
- 2.1 信念度和概率
- 2.2 概率分布
- 2.3 联合分布
- 2.4 条件分布
- 2.5 贝叶斯网络
- 2.6 条件独立性
- 2.7 本章小结
- 2.8 练习题
- 第3章 推理
- 3.1 贝叶斯网络中的推理
- 3.2 朴素贝叶斯模型中的推理
- 3.3 “和-积”变量消除
- 3.4 信念传播
- 3.5 计算复杂度
- 3.6 直接抽样
- 3.7 似然加权抽样
- 3.8 吉布斯抽样
- 3.9 高斯模型中的推理
- 3.10 本章小结
- 3.11 练习题
- 第4章 参数学习
- 4.1 最大似然参数学习
- 4.2 贝叶斯参数学习
- 4.3 非参数学习
- 4.4 缺失数据的学习
- 4.5 本章小结
- 4.6 练习题
- 第5章 结构学习
- 5.1 贝叶斯网络评分
- 5.2 有向图搜索
- 5.3 马尔可夫等价类
- 5.4 部分有向图搜索
- 5.5 本章小结
- 5.6 练习题
- 第6章 简单决策
- 6.1 理性偏好上的约束
- 6.2 效用函数
- 6.3 效用诱导
- 6.4 最大期望效用原则
- 6.5 决策网络
- 6.6 信息价值
- 6.7 非理性
- 6.8 本章小结
- 6.9 练习题
- 第二部分 序列问题
- 第7章 精确求解方法
- 7.1 马尔可夫决策过程
- 7.2 策略评估
- 7.3 值函数策略
- 7.4 策略迭代
- 7.5 值迭代
- 7.6 异步值迭代
- 7.7 线性规划方程
- 7.8 具有二次型奖励的线性系统
- 7.9 本章小结
- 7.10 练习题
- 第8章 近似值函数
- 8.1 参数化表示
- 8.2 最近邻
- 8.3 核平滑
- 8.4 线性插值
- 8.5 单纯形插值
- 8.6 线性回归
- 8.7 神经网络回归
- 8.8 本章小结
- 8.9 练习题
- 第9章 在线规划
- 9.1 滚动时域规划
- 9.2 基于预演的前瞻算法
- 9.3 正向搜索
- 9.4 分支定界法
- 9.5 稀疏抽样
- 9.6 蒙特卡罗树搜索
- 9.7 启发式搜索
- 9.8 标记启发式搜索
- 9.9 开环规划
- 9.10 本章小结
- 9.11 练习题
- 第10章 策略搜索
- 10.1 近似策略评估
- 10.2 局部搜索
- 10.3 遗传算法
- 10.4 交叉熵方法
- 10.5 进化策略
- 10.6 各向同性进化策略
- 10.7 本章小结
- 10.8 练习题
- 第11章 策略梯度值的估算
- 11.1 有限差分
- 11.2 回归梯度
- 11.3 似然比
- 11.4 “之后的奖励”方法
- 11.5 基线扣除法
- 11.6 本章小结
- 11.7 练习题
- 第12章 策略梯度的优化
- 12.1 梯度上升更新
- 12.2 带约束条件的梯度更新
- 12.3 自然梯度更新
- 12.4 信任区域更新
- 12.5 剪裁代理目标
- 12.6 本章小结
- 12.7 练习题
- 第13章 “行为者-评论家”方法
- 13.1 “行为者-评论家”
- 13.2 广义优势估计
- 13.3 确定性策略梯度
- 13.4 蒙特卡罗树搜索的“行为者-评论家”
- 13.5 本章小结
- 13.6 练习题
- 第14章 策略验证
- 14.1 性能指标评估
- 14.2 罕见事件模拟
- 14.3 鲁棒性分析
- 14.4 权衡分析
- 14.5 对抗性分析
- 14.6 本章小结
- 14.7 练习题
- 第三部分 模型不确定性
- 第15章 探索和利用
- 15.1 赌博机问题
- 15.2 贝叶斯模型估计
- 15.3 无向探索策略
- 15.4 有向探索策略
- 15.5 最佳探索策略
- 15.6 使用多个状态进行探索
- 15.7 本章小结
- 15.8 练习题
- 第16章 基于模型的方法
- 16.1 最大似然模型
- 16.2 更新方案
- 16.3 探索策略
- 16.4 贝叶斯方法
- 16.5 贝叶斯自适应马尔可夫决策过程
- 16.6 后验抽样
- 16.7 本章小结
- 16.8 练习题
- 第17章 无模型的方法
- 17.1 均值的增量估计
- 17.2 Q-学习
- 17.3 Sarsa
- 17.4 资格迹
- 17.5 奖励塑形
- 17.6 行为值函数近似
- 17.7 经验回放
- 17.8 本章小结
- 17.9 练习题
- 第18章 模仿学习
- 18.1 行为克隆
- 18.2 数据集聚合
- 18.3 随机混合迭代学习
- 18.4 最大边际逆向强化学习
- 18.5 最大熵逆向强化学习
- 18.6 生成式对抗性模仿学习
- 18.7 本章小结
- 18.8 练习题
- 第四部分 状态不确定性
- 第19章 信念
- 19.1 信念初始化
- 19.2 离散状态滤波器
- 19.3 卡尔曼滤波器
- 19.4 扩展卡尔曼滤波器
- 19.5 无迹卡尔曼滤波器
- 19.6 粒子滤波器
- 19.7 粒子注入
- 19.8 本章小结
- 19.9 练习题
- 第20章 精确信念状态规划
- 20.1 信念-状态马尔可夫决策过程
- 20.2 条件规划
- 20.3 阿尔法向量
- 20.4 剪枝
- 20.5 值迭代
- 20.6 线性策略
- 20.7 本章小结
- 20.8 练习题
- 第21章 离线信念状态规划
- 21.1 完全可观测值的近似
- 21.2 快速通知界限
- 21.3 快速下界
- 21.4 基于点的值迭代
- 21.5 基于随机点的值迭代
- 21.6 锯齿上界
- 21.7 点选择
- 21.8 锯齿启发式搜索
- 21.9 三角化的值函数
- 21.10 本章小结
- 21.11 练习题
- 第22章 在线信念状态规划
- 22.1 具有预演的前瞻策略
- 22.2 正向搜索
- 22.3 分支定界法
- 22.4 稀疏抽样
- 22.5 蒙特卡罗树搜索
- 22.6 确定性稀疏树搜索
- 22.7 间隙启发式搜索
- 22.8 本章小结
- 22.9 练习题
- 第23章 控制器抽象
- 23.1 控制器
- 23.2 策略迭代
- 23.3 非线性规划
- 23.4 梯度上升
- 23.5 本章小结
- 23.6 练习题
- 第五部分 多智能体系统
- 第24章 多智能体推理
- 24.1 简单博弈
- 24.2 响应模型
- 24.3 主导策略均衡
- 24.4 纳什均衡
- 24.5 相关均衡
- 24.6 迭代式最优响应
- 24.7 层次化Softmax
- 24.8 虚构博弈
- 24.9 梯度上升
- 24.10 本章小结
- 24.11 练习题
- 第25章 序列问题
- 25.1 马尔可夫博弈
- 25.2 响应模型
- 25.3 纳什均衡
- 25.4 虚构博弈
- 25.5 梯度上升
- 25.6 纳什Q-学习
- 25.7 本章小结
- 25.8 练习题
- 第26章 状态不确定性
- 26.1 部分可观测马尔可夫博弈
- 26.2 策略评估
- 26.3 纳什均衡
- 26.4 动态规划
- 26.5 本章小结
- 26.6 练习题
- 第27章 协作智能体
- 27.1 分散的部分可观测马尔可夫决策过程
- 27.2 Dec-POMDP的子类别
- 27.3 动态规划
- 27.4 迭代式最优响应
- 27.5 启发式搜索
- 27.6 非线性规划
- 27.7 本章小结
- 27.8 练习题
- 附录
- 附录A 数学概念
- 附录B 概率分布
- 附录C 计算复杂度
- 附录D 神经网络表示
- 附录E 搜索算法
- 附录F 决策问题
- 附录G Julia
- 参考文献
- 推荐阅读
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。