人工智能
类型
可以朗读
语音朗读
85千字
字数
2021-09-01
发行日期
展开全部
主编推荐语
本书是一本深度强化学习领域的入门读物。
内容简介
强化学习是实现决策智能的主要途径之一。经历数十年的发展,强化学习领域已经枝繁叶茂,技术内容纷繁复杂,这也为初学者快速入门造成障碍。
全书分为四部分。第一部分主要阐述强化学习领域的基本理论知识;第二部分讲解深度强化学习常用算法的原理、各算法之间的继承与发展,以及各自的算法流程;第三部分总结深度强化学习算法在游戏、推荐系统等领域的应用;第四部分探讨了该领域存在的问题和发展前景。
目录
- 版权信息
- 内容简介
- 好评袭来
- 前言
- 第一部分 基础理论篇
- 1 马尔可夫决策过程
- 1.1 马尔可夫性
- 1.2 一些基本定义
- 1.3 值函数
- 1.4 基于策略的值函数
- 1.5 贝尔曼方程
- 1.6 策略迭代与值迭代
- 2 无模型的强化学习
- 2.1 蒙特卡罗方法
- 2.2 时间差分方法
- 2.3 值函数估计和策略搜索
- 3 有模型的强化学习
- 3.1 什么是模型
- 3.2 基本思路
- 3.3 有模型方法和无模型方法的区别
- 3.4 典型算法
- 第二部分 常用算法篇
- 4 DQN算法
- 4.1 算法介绍
- 4.2 相关改进
- 4.3 实验效果与小结
- 5 A3C算法
- 5.1 Actor-Critic方法
- 5.2 基线减法与优势函数
- 5.3 博采众长的A3C算法
- 5.4 实验效果与小结
- 6 确定性策略梯度方法
- 6.1 随机性策略梯度与确定性策略梯度
- 6.2 异策略的确定性策略梯度
- 6.3 深度确定性策略梯度
- 6.4 D4PG算法
- 6.5 实验效果与小结
- 7 PPO算法
- 7.1 PPO算法的核心
- 7.2 TRPO算法
- 7.3 PPO算法
- 7.4 实验效果与小结
- 8 IMPALA算法
- 8.1 算法架构
- 8.2 V-trace算法
- 8.3 V-trace Actor-Critic算法
- 8.4 实验效果与小结
- 第三部分 应用实践篇
- 9 深度强化学习在棋牌游戏中的应用
- 9.1 棋盘类游戏
- 9.2 牌类游戏
- 10 深度强化学习在电子游戏中的应用
- 10.1 研发游戏中的机器人
- 10.2 制作游戏动画
- 10.3 其他应用
- 11 深度强化学习在推荐系统中的应用
- 11.1 适用的场景
- 11.2 淘宝锦囊推荐中的应用
- 12 深度强化学习在其他领域中的应用
- 12.1 在无人驾驶中的应用
- 12.2 金融交易中的应用
- 12.3 信息安全中的应用
- 12.4 自动调参中的应用
- 12.5 交通控制中的应用
- 第四部分 总结与展望篇
- 13 问题与挑战
- 13.1 样本利用率低
- 13.2 奖赏函数难以设计
- 13.3 实验效果难复现
- 13.4 行为不完全可控
- 14 深度强化学习往何处去
- 14.1 未来发展和研究方向
- 14.2 审慎乐观,大有可为
- 参考资料
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。