展开全部

主编推荐语

本书主要介绍不确定状态下的决策算法。

内容简介

本书共分为五个部分:首先解决在单个时间点上简单决策的不确定性和目标的推理问题;然后介绍随机环境中的序列决策问题;接着讨论模型不确定性,包括基于模型的方法和无模型的方法;之后讨论状态不确定性,包括精确信念状态规划、离线信念状态规划、在线信念状态规划等;最后讨论多智能体系统,涉及多智能体推理和协作智能体等。

本书主要关注规划和强化学习,其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的,并配有大量图表、示例和练习题。本书要求读者具备扎实的数学基础,适合计算机科学、数学、统计学、电气工程、航空航天等领域的读者阅读。

目录

  • 版权信息
  • 译者序
  • 前言
  • 致谢
  • 第1章 导论
  • 1.1 决策
  • 1.2 应用
  • 1.2.1 飞机防撞控制系统
  • 1.2.2 自动驾驶控制系统
  • 1.2.3 乳腺癌筛查
  • 1.2.4 金融消费与投资组合配置
  • 1.2.5 分布式森林火灾监控系统
  • 1.2.6 火星科学探测
  • 1.3 方法
  • 1.3.1 显式编程
  • 1.3.2 监督式学习
  • 1.3.3 优化
  • 1.3.4 规划
  • 1.3.5 强化学习
  • 1.4 自动化决策过程的历史
  • 1.4.1 经济学
  • 1.4.2 心理学
  • 1.4.3 神经科学
  • 1.4.4 计算机科学
  • 1.4.5 工程
  • 1.4.6 数学
  • 1.4.7 运筹学
  • 1.5 社会影响
  • 1.6 本书组织结构
  • 1.6.1 概率推理
  • 1.6.2 序列问题
  • 1.6.3 模型不确定性
  • 1.6.4 状态不确定性
  • 1.6.5 多智能体系统
  • 第一部分 概率推理
  • 第2章 表示
  • 2.1 信念度和概率
  • 2.2 概率分布
  • 2.3 联合分布
  • 2.4 条件分布
  • 2.5 贝叶斯网络
  • 2.6 条件独立性
  • 2.7 本章小结
  • 2.8 练习题
  • 第3章 推理
  • 3.1 贝叶斯网络中的推理
  • 3.2 朴素贝叶斯模型中的推理
  • 3.3 “和-积”变量消除
  • 3.4 信念传播
  • 3.5 计算复杂度
  • 3.6 直接抽样
  • 3.7 似然加权抽样
  • 3.8 吉布斯抽样
  • 3.9 高斯模型中的推理
  • 3.10 本章小结
  • 3.11 练习题
  • 第4章 参数学习
  • 4.1 最大似然参数学习
  • 4.2 贝叶斯参数学习
  • 4.3 非参数学习
  • 4.4 缺失数据的学习
  • 4.5 本章小结
  • 4.6 练习题
  • 第5章 结构学习
  • 5.1 贝叶斯网络评分
  • 5.2 有向图搜索
  • 5.3 马尔可夫等价类
  • 5.4 部分有向图搜索
  • 5.5 本章小结
  • 5.6 练习题
  • 第6章 简单决策
  • 6.1 理性偏好上的约束
  • 6.2 效用函数
  • 6.3 效用诱导
  • 6.4 最大期望效用原则
  • 6.5 决策网络
  • 6.6 信息价值
  • 6.7 非理性
  • 6.8 本章小结
  • 6.9 练习题
  • 第二部分 序列问题
  • 第7章 精确求解方法
  • 7.1 马尔可夫决策过程
  • 7.2 策略评估
  • 7.3 值函数策略
  • 7.4 策略迭代
  • 7.5 值迭代
  • 7.6 异步值迭代
  • 7.7 线性规划方程
  • 7.8 具有二次型奖励的线性系统
  • 7.9 本章小结
  • 7.10 练习题
  • 第8章 近似值函数
  • 8.1 参数化表示
  • 8.2 最近邻
  • 8.3 核平滑
  • 8.4 线性插值
  • 8.5 单纯形插值
  • 8.6 线性回归
  • 8.7 神经网络回归
  • 8.8 本章小结
  • 8.9 练习题
  • 第9章 在线规划
  • 9.1 滚动时域规划
  • 9.2 基于预演的前瞻算法
  • 9.3 正向搜索
  • 9.4 分支定界法
  • 9.5 稀疏抽样
  • 9.6 蒙特卡罗树搜索
  • 9.7 启发式搜索
  • 9.8 标记启发式搜索
  • 9.9 开环规划
  • 9.10 本章小结
  • 9.11 练习题
  • 第10章 策略搜索
  • 10.1 近似策略评估
  • 10.2 局部搜索
  • 10.3 遗传算法
  • 10.4 交叉熵方法
  • 10.5 进化策略
  • 10.6 各向同性进化策略
  • 10.7 本章小结
  • 10.8 练习题
  • 第11章 策略梯度值的估算
  • 11.1 有限差分
  • 11.2 回归梯度
  • 11.3 似然比
  • 11.4 “之后的奖励”方法
  • 11.5 基线扣除法
  • 11.6 本章小结
  • 11.7 练习题
  • 第12章 策略梯度的优化
  • 12.1 梯度上升更新
  • 12.2 带约束条件的梯度更新
  • 12.3 自然梯度更新
  • 12.4 信任区域更新
  • 12.5 剪裁代理目标
  • 12.6 本章小结
  • 12.7 练习题
  • 第13章 “行为者-评论家”方法
  • 13.1 “行为者-评论家”
  • 13.2 广义优势估计
  • 13.3 确定性策略梯度
  • 13.4 蒙特卡罗树搜索的“行为者-评论家”
  • 13.5 本章小结
  • 13.6 练习题
  • 第14章 策略验证
  • 14.1 性能指标评估
  • 14.2 罕见事件模拟
  • 14.3 鲁棒性分析
  • 14.4 权衡分析
  • 14.5 对抗性分析
  • 14.6 本章小结
  • 14.7 练习题
  • 第三部分 模型不确定性
  • 第15章 探索和利用
  • 15.1 赌博机问题
  • 15.2 贝叶斯模型估计
  • 15.3 无向探索策略
  • 15.4 有向探索策略
  • 15.5 最佳探索策略
  • 15.6 使用多个状态进行探索
  • 15.7 本章小结
  • 15.8 练习题
  • 第16章 基于模型的方法
  • 16.1 最大似然模型
  • 16.2 更新方案
  • 16.3 探索策略
  • 16.4 贝叶斯方法
  • 16.5 贝叶斯自适应马尔可夫决策过程
  • 16.6 后验抽样
  • 16.7 本章小结
  • 16.8 练习题
  • 第17章 无模型的方法
  • 17.1 均值的增量估计
  • 17.2 Q-学习
  • 17.3 Sarsa
  • 17.4 资格迹
  • 17.5 奖励塑形
  • 17.6 行为值函数近似
  • 17.7 经验回放
  • 17.8 本章小结
  • 17.9 练习题
  • 第18章 模仿学习
  • 18.1 行为克隆
  • 18.2 数据集聚合
  • 18.3 随机混合迭代学习
  • 18.4 最大边际逆向强化学习
  • 18.5 最大熵逆向强化学习
  • 18.6 生成式对抗性模仿学习
  • 18.7 本章小结
  • 18.8 练习题
  • 第四部分 状态不确定性
  • 第19章 信念
  • 19.1 信念初始化
  • 19.2 离散状态滤波器
  • 19.3 卡尔曼滤波器
  • 19.4 扩展卡尔曼滤波器
  • 19.5 无迹卡尔曼滤波器
  • 19.6 粒子滤波器
  • 19.7 粒子注入
  • 19.8 本章小结
  • 19.9 练习题
  • 第20章 精确信念状态规划
  • 20.1 信念-状态马尔可夫决策过程
  • 20.2 条件规划
  • 20.3 阿尔法向量
  • 20.4 剪枝
  • 20.5 值迭代
  • 20.6 线性策略
  • 20.7 本章小结
  • 20.8 练习题
  • 第21章 离线信念状态规划
  • 21.1 完全可观测值的近似
  • 21.2 快速通知界限
  • 21.3 快速下界
  • 21.4 基于点的值迭代
  • 21.5 基于随机点的值迭代
  • 21.6 锯齿上界
  • 21.7 点选择
  • 21.8 锯齿启发式搜索
  • 21.9 三角化的值函数
  • 21.10 本章小结
  • 21.11 练习题
  • 第22章 在线信念状态规划
  • 22.1 具有预演的前瞻策略
  • 22.2 正向搜索
  • 22.3 分支定界法
  • 22.4 稀疏抽样
  • 22.5 蒙特卡罗树搜索
  • 22.6 确定性稀疏树搜索
  • 22.7 间隙启发式搜索
  • 22.8 本章小结
  • 22.9 练习题
  • 第23章 控制器抽象
  • 23.1 控制器
  • 23.2 策略迭代
  • 23.3 非线性规划
  • 23.4 梯度上升
  • 23.5 本章小结
  • 23.6 练习题
  • 第五部分 多智能体系统
  • 第24章 多智能体推理
  • 24.1 简单博弈
  • 24.2 响应模型
  • 24.3 主导策略均衡
  • 24.4 纳什均衡
  • 24.5 相关均衡
  • 24.6 迭代式最优响应
  • 24.7 层次化Softmax
  • 24.8 虚构博弈
  • 24.9 梯度上升
  • 24.10 本章小结
  • 24.11 练习题
  • 第25章 序列问题
  • 25.1 马尔可夫博弈
  • 25.2 响应模型
  • 25.3 纳什均衡
  • 25.4 虚构博弈
  • 25.5 梯度上升
  • 25.6 纳什Q-学习
  • 25.7 本章小结
  • 25.8 练习题
  • 第26章 状态不确定性
  • 26.1 部分可观测马尔可夫博弈
  • 26.2 策略评估
  • 26.3 纳什均衡
  • 26.4 动态规划
  • 26.5 本章小结
  • 26.6 练习题
  • 第27章 协作智能体
  • 27.1 分散的部分可观测马尔可夫决策过程
  • 27.2 Dec-POMDP的子类别
  • 27.3 动态规划
  • 27.4 迭代式最优响应
  • 27.5 启发式搜索
  • 27.6 非线性规划
  • 27.7 本章小结
  • 27.8 练习题
  • 附录
  • 附录A 数学概念
  • 附录B 概率分布
  • 附录C 计算复杂度
  • 附录D 神经网络表示
  • 附录E 搜索算法
  • 附录F 决策问题
  • 附录G Julia
  • 参考文献
  • 推荐阅读
展开全部

评分及书评

评分不足
2个评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。