人工智能
类型
可以朗读
语音朗读
236千字
字数
2023-09-01
发行日期
展开全部
主编推荐语
AI和ML领域的知名专家和博主重磅作品,囊括行业前沿技术。
内容简介
本书使用受现实世界商业和行业问题启发的实际示例来讲授强化学习技术的相关知识。
本书分为四部分:
第一部分涵盖强化学习的必要背景,包括定义、数学基础和强化学习解决方案的概述;
第二部分深入介绍最先进的强化学习算法(规模化的深度Q-学习、基于策略的方法、基于模型的方法、多智能体强化学习等),包括每种算法的优缺点;
第三部分介绍强化学习中的高级技术,包括机器教学、泛化和域随机化、元强化学习等主题,还涵盖强化学习中有助于改进模型的各种高级主题;
第四部分讲解强化学习的各种应用,例如自主系统、供应链管理、营销和金融、智慧城市与网络安全等,并讨论强化学习领域的一些挑战及未来方向。
学完本书,你将掌握如何训练和部署自己的强化学习智能体来解决强化学习问题。
目录
- 版权信息
- 译者序
- 前言
- 作者简介
- 审校者简介
- 第一部分 强化学习基础
- 第1章 强化学习简介
- 1.1 为什么选择强化学习
- 1.2 机器学习的三种范式
- 1.3 强化学习应用领域和成功案例
- 1.4 强化学习问题的元素
- 1.5 设置强化学习环境
- 1.6 总结
- 1.7 参考文献
- 第2章 多臂老虎机
- 2.1 探索-利用权衡
- 2.2 什么是多臂老虎机问题
- 2.3 案例研究:在线广告
- 2.4 A/B/n测试
- 2.5 ε-贪心策略行动
- 2.6 使用置信上界进行行动选择
- 2.7 汤普森(后)采样
- 2.8 总结
- 2.9 参考文献
- 第3章 上下文多臂老虎机
- 3.1 为什么我们需要函数近似
- 3.2 对上下文使用函数近似
- 3.3 对行动使用函数近似
- 3.4 多臂老虎机和上下文老虎机的其他应用
- 3.5 总结
- 3.6 参考文献
- 第4章 马尔可夫决策过程的制定
- 4.1 马尔可夫链
- 4.2 引入奖励:马尔可夫奖励过程
- 4.3 引入行动:马尔可夫决策过程
- 4.4 部分可观测的马尔可夫决策过程
- 4.5 总结
- 4.6 练习
- 4.7 参考文献
- 第5章 求解强化学习问题
- 5.1 探索动态规划
- 5.2 用蒙特卡罗法训练智能体
- 5.3 时间差分学习
- 5.4 了解模拟在强化学习中的重要性
- 5.5 总结
- 5.6 练习
- 5.7 参考文献
- 第二部分 深度强化学习
- 第6章 规模化的深度Q-学习
- 6.1 从表格型Q-学习到深度Q-学习
- 6.2 深度Q网络
- 6.3 DQN扩展:Rainbow
- 6.4 分布式深度Q-学习
- 6.5 使用Ray实现可扩展的深度Q-学习算法
- 6.6 使用RLlib实现生产级深度强化学习算法
- 6.7 总结
- 6.8 参考文献
- 第7章 基于策略的方法
- 7.1 为什么我们应该使用基于策略的方法
- 7.2 一般性策略梯度方法
- 7.3 Actor-Critic算法
- 7.4 信任域方法
- 7.5 异策略方法
- 7.6 Lunar Lander环境中基于策略的方法的比较
- 7.7 如何选择正确的算法
- 7.8 策略梯度方法的开源实现
- 7.9 总结
- 7.10 参考文献
- 第8章 基于模型的方法
- 8.1 技术要求
- 8.2 引入基于模型的方法
- 8.3 通过模型进行规划
- 8.4 学习世界模型
- 8.5 统一基于模型的和无模型的方法
- 8.6 总结
- 8.7 参考文献
- 第9章 多智能体强化学习
- 9.1 多智能体强化学习介绍
- 9.2 探索多智能体强化学习中存在的挑战
- 9.3 在多智能体环境中训练策略
- 9.4 通过自博弈来训练井字棋智能体
- 9.5 总结
- 9.6 参考文献
- 第三部分 强化学习中的高级主题
- 第10章 机器教学
- 10.1 技术要求
- 10.2 机器教学简介
- 10.3 设计奖励函数
- 10.4 课程表学习
- 10.5 热启动和演示学习
- 10.6 行动掩蔽
- 10.7 概念网络
- 10.8 机器教学的缺点和承诺
- 10.9 总结
- 10.10 参考文献
- 第11章 泛化和域随机化
- 11.1 泛化和部分可观测性概述
- 11.2 用于泛化的域随机化
- 11.3 使用记忆来克服部分可观测性
- 11.4 总结
- 11.5 参考文献
- 第12章 元强化学习
- 12.1 元强化学习简介
- 12.2 具有循环策略的元强化学习
- 12.3 基于梯度的元强化学习
- 12.4 元强化学习作为部分观测强化学习
- 12.5 元强化学习中的挑战
- 12.6 总结
- 12.7 参考文献
- 第13章 其他高级主题
- 13.1 分布式强化学习
- 13.2 好奇心驱动的强化学习
- 13.3 离线强化学习
- 13.4 总结
- 13.5 参考文献
- 第四部分 强化学习的应用
- 第14章 自主系统
- 14.1 PyBullet
- 14.2 熟悉KUKA环境
- 14.3 制定解决KUKA环境的策略
- 14.4 使用课程表学习训练KUKA机器人
- 14.5 超越PyBullet进入自动驾驶领域
- 14.6 总结
- 14.7 参考文献
- 第15章 供应链管理
- 15.1 优化库存采购决策
- 15.2 建模路由问题
- 15.3 总结
- 15.4 参考文献
- 第16章 营销、个性化和金融
- 16.1 超越老虎机进行个性化
- 16.2 使用强化学习制定有效的营销策略
- 16.3 在金融中应用强化学习
- 16.4 总结
- 16.5 参考文献
- 第17章 智慧城市与网络安全
- 17.1 交通灯控制以优化车流量
- 17.2 为电网提供辅助服务
- 17.3 检测智能电网中的网络攻击
- 17.4 总结
- 17.5 参考文献
- 第18章 强化学习领域的挑战和未来方向
- 18.1 你从本书中得到的收获
- 18.2 挑战和未来方向
- 18.3 对有抱负的强化学习专家的建议
- 18.4 结束语
- 18.5 参考文献
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。