深度强化学习:入门与实践指南 pdf 网盘 高速 下载地址大全 免费

pdf电子书下载地址
其他格式下载地址
- 下载地址
- [txt] 深度强化学习:入门与实践指南
内容简介:
强化学习是机器学习发展非常迅速的一个领域,由于其灵活性和通用性,可以应用在从玩游戏到优化复杂制造过程的许多实际情况。本书帮助读者迅速理解深度强化学习,并从原理到新近算法进行全面探索。关于强化学习的新资料很多,但多数过于专业和抽象,很不容易理解,并且从理解原理到可以实际解决问题之间还有巨大差距,而本书意在填补强化学习方法在实用性和结构化信息方面的不足,以帮助读者从整体上轻松理解深度强化学习。同时本书的另一个特点是面向实践,从简单到非常复杂,将每种方法实际应用在各种具体环境中,以帮助读者在实际研究和工作中应用深度强化学习来解决问题。
本书适合深度强化学习、机器学习、人工智能相关行业从业者、学习者阅读参考。
书籍目录:
目 录
原书前言
第1章 什么是强化学习 // 1
1.1 学习—监督、无监督和强化 // 1
1.2 RL形式和关系 // 3
1.2.1 奖励 // 4
1.2.2 智能体 // 5
1.2.3 环境 // 5
1.2.4 动作 // 6
1.2.5 观察 // 6
1.3 马尔可夫决策过程简介 // 8
1.3.1 马尔可夫过程 // 8
1.3.2 马尔可夫奖励过程 // 11
1.3.3 马尔可夫决策过程 // 13
1.4 本章小结 // 16
第2章 OpenAI Gym开源平台 // 17
2.1 智能体剖析 // 17
2.2 硬件和软件要求 // 19
2.3 OpenAI Gym API // 20
2.3.1 动作空间 // 21
2.3.2 观察空间 // 21
2.3.3 环境 // 22
2.3.4 创建环境 // 23
2.3.5 CartPole会话 // 25
2.4 随机CartPole智能体 // 26
2.5 额外的Gym功能—Wrapper和Monitor // 27
2.5.1 Wrapper // 28
2.5.2 Monitor // 30
2.6 本章小结 // 32
第3章 使用PyTorch进行深度学习 // 33
3.1 张量 // 33
3.1.1 创建张量 // 33
3.1.2 标量张量 // 35
3.1.3 张量操作 // 36
3.1.4 GPU张量 // 36
3.2 梯度 // 37
3.2.1 张量和梯度 // 38
3.3 NN构建块 // 40
3.4 定制层级 // 41
3.5 终的黏合剂—损失函数和优化器 // 43
3.5.1 损失函数 // 44
3.5.2 优化器 // 44
3.6 使用TensorBoard监控 // 45
3.6.1 TensorBoard简介 // 46
3.6.2 绘图工具 // 47
3.7 示例:在Atari图像上使用GAN // 48
3.8 本章小结 // 52
第4章 交叉熵方法 // 53
4.1 RL方法的分类 // 53
4.2 实践交叉熵 // 54
4.3 CartPole上的交叉熵方法 // 55
4.4 FrozenLake上的交叉熵方法 // 62
4.5 交叉熵方法的理论背景 // 67
4.6 本章小结 // 68
第5章 表格学习与Bellman方程 // 69
5.1 值、状态、性 // 69
5.2 的Bellman方程 // 70
5.3 动作的值 // 72
5.4 值迭代法 // 74
5.5 实践中的值迭代 // 75
5.6 FrozenLake中的Q-learning // 80
5.7 本章小结 // 82
第6章 深度Q网络 // 83
6.1 现实中的值迭代 // 83
6.2 表格式Q-learning // 84
6.3 深度Q-learning // 88
6.3.1 与环境的交互 // 89
6.3.2 SGD优化 // 90
6.3.3 步骤之间的相关性 // 90
6.3.4 马尔可夫性 // 90
6.3.5 DQN训练的终形式 // 91
6.4 Pong上的DQN // 91
6.4.1 封装 // 92
6.4.2 DQN模型 // 96
6.4.3 训练 // 98
6.4.4 运行与性能 // 105
6.4.5 动作中的模型 // 107
6.5 本章小结 // 109
第7章 DQN扩展 // 110
7.1 PyTorch Agent Net函数库 // 110
7.1.1 智能体 // 111
7.1.2 智能体的经验 // 112
7.1.3 经验缓冲区 // 113
7.1.4 Gym env封装 // 113
7.2 基本DQN // 113
7.3 N步DQN // 119
7.3.1 实现 // 121
7.4 双DQN // 123
7.4.1 实现 // 123
7.4.2 结果 // 126
7.5 有噪网络 // 127
7.5.1 实现 // 127
7.5.2 结果 // 130
7.6 优先级重放缓冲区 // 132
7.6.1 实现 // 133
7.6.2 结果 // 137
7.7 竞争DQN // 137
7.7.1 实现 // 138
7.7.2 结果 // 139
7.8 分类 // 140
7.8.1 实现 // 142
7.8.2 结果 // 148
7.9 结合所有 // 149
7.9.1 实现 // 150
7.9.2 结果 // 154
7.10 本章小结 // 155
参考文献 // 155
第8章 RL用于股票交易 // 156
8.1 贸易 // 156
8.2 数据 // 156
8.3 问题陈述和关键决策 // 157
8.4 交易环境 // 159
8.5 模型 // 165
8.6 训练代码 // 166
8.7 结果 // 167
8.7.1 前馈模型 // 167
8.7.2 卷积模型 // 170
8.8 要尝试的事 // 173
8.9 本章小结 // 173
第9章 策略梯度法:一种替代方案 // 174
9.1 值与策略 // 174
9.1.1 为什么是策略 // 174
9.1.2 策略表示 // 175
9.1.3 策略梯度 // 175
9.2 强化方法 // 176
9.2.1 CartPole的例子 // 177
9.2.2 结果 // 180
9.2.3 基于策略的方法与基于值的方法 // 181
9.3 强化问题 // 181
9.3.1 完整episode是必需的 // 182
9.3.2 高梯度方差 // 182
9.3.3 探索 // 182
9.3.4 样本之间的相关性 // 183
9.4 CartPole上的PG // 183
9.5 Pong上的PG // 187
9.6 本章小结 // 190
第10章 Actor-Critic方法 // 191
10.1 方差减少 // 191
10.2 CartPole方差 // 192
10.3 Actor-Critic // 194
10.4 Pong上的A2C // 196
10.5 Pong上的A2C的结果 // 201
10.6 调整超参数 // 202
10.6.1 学习率 // 203
10.6.2 熵beta // 203
10.6.3 环境数量 // 204
10.6.4 batch大小 // 204
10.7 本章小结 // 204
第11章 异步优势Actor-Critic方法 // 205
11.1 相关性和样本效率 // 205
11.2 在A2C中添加另一个A // 206
11.3 Python中的多处理 // 208
11.4 A3C—数据并行 // 208
11.5 A3C—梯度并行 // 214
11.6 本章小结 // 219
第12章 用 RL训练聊天机器人 // 220
作者简介:
Maxim Lapan
深度学习研究者,作为一名软件开发人员和系统架构师,具有超过15年的专业经验,涵盖了从Linux内核驱动程序开发到可在数千台服务器上工作的分布式应用项目的设计与性能优化。他在大数据、机器学习以及大型并行分布式HPC系统方面拥有丰富的工作经验,并擅长使用简单的文字和生动的示例来解释复杂事物。他目前专注的领域是深度学习的实际应用,例如深度自然语言处理和深度强化学习。Maxim目前在以色列一家初创公司工作,担任高级NLP开发人员。
其它内容:
暂无其它内容!
下载评论
-
用户1727704973:
( 2024-09-30 22:02:53 )
极速下载PDF/MOBI文件,精校教材推荐收藏,资源优质。
-
用户1729999023:
( 2024-10-27 11:17:03 )
无损的报告资源,双语设计提升阅读体验,值得收藏。
-
用户1729044023:
( 2024-10-16 10:00:23 )
精校的小说资源,双语设计提升阅读体验,推荐下载。
-
用户1719428909:
( 2024-06-27 03:08:29 )
极速下载PDF/AZW3文件,完整报告推荐收藏,资源优质。
-
用户1732505854:
( 2024-11-25 11:37:34 )
多格式功能搭配EPUB/AZW3格式,优质数字阅读体验,推荐下载。
下载点评