沃新书屋 - 强化学习/智能科学与技术丛书 - azw3 网盘 高速 下载地址大全 免费
本书资料更新时间:2025-05-06 03:10:52

强化学习/智能科学与技术丛书 azw3 网盘 高速 下载地址大全 免费

强化学习/智能科学与技术丛书精美图片
其他格式下载地址

强化学习/智能科学与技术丛书书籍详细信息


内容简介:

本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容,并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用,后提出未来发展趋势及研究热点问题,有助于年轻的研究者了解整个强化学习领域,发现新的研究方向。本书适合作为高等院校机器学习相关课程的参考书,也可作为人工智能领域从业技术人员的参考用书。

书籍目录:

译者序 序言 前言 作者清单 第一部分 绪论 第1章 强化学习和马尔可夫决策过程 2 1.1 简介 2 1.2 时序决策 3 1.2.1 接近时序决策 4 1.2.2 在线学习与离线学习 4 1.2.3 贡献分配 5 1.2.4 探索–运用的平衡 5 1.2.5 反馈、目标和性能 5 1.2.6 表达 6 1.3 正式的框架 6 1.3.1 马尔可夫决策过程 7 1.3.2 策略 9 1.3.3 最优准则和减量 9 1.4 价值函数和贝尔曼方程 10 1.5 求解马尔可夫决策过程 12 1.6 动态规划:基于模型的解决方案 13 1.6.1 基本的动态规划算法 13 1.6.2 高效的动态规划算法 17 1.7 强化学习:无模型的解决方案 19 1.7.1 时序差分学习 20 1.7.2 蒙特卡罗方法 23 1.7.3 高效的探索和价值更新 24 1.8 总结 27 参考文献 27 第二部分 高效的解决方案框架 第2章 批处理强化学习 32 2.1 简介 32 2.2 批处理强化学习问题 33 2.2.1 批处理学习问题 33 2.2.2 增长批处理学习问题 34 2.3 批处理强化学习算法的基础 34 2.4 批处理强化学习算法 37 2.4.1 基于核的近似动态规划 37 2.4.2 拟合Q迭代 39 2.4.3 基于最小二乘的策略迭代 40 2.4.4 识别批处理算法 41 2.5 批处理强化学习理论 42 2.6 批处理强化学习的实现 43 2.6.1 神经拟合Q迭代 44 2.6.2 控制应用中的神经拟合Q迭代算法 45 2.6.3 面向多学习器的批处理强化学习 46 2.6.4 深度拟合Q迭代 48 2.6.5 应用/发展趋势 49 2.7 总结 50 参考文献 50 第3章 策略迭代的最小二乘法 53 3.1 简介 53 3.2 预备知识:经典策略迭代算法 54 3.3 近似策略评估的最小二乘法 55 3.3.1 主要原则和分类 55 3.3.2 线性情况下和矩阵形式的方程 57 3.3.3 无模型算法的实现 60 3.3.4 参考文献 62 3.4 策略迭代的在线最小二乘法 63 3.5 例子:car-on-the-hill 64 3.6 性能保障 66 3.6.1 渐近收敛性和保证 66 3.6.2 有限样本的保证 68 3.7 延伸阅读 73 参考文献 74 第4章 学习和使用模型 78 4.1 简介 78 4.2 什么是模型 79 4.3 规划 80 4.4 联合模型和规划 82 4.5 样本复杂度 84 4.6 分解域 86 4.7 探索 88 4.8 连续域 91 4.9 实证比较 93 4.10 扩展 95 4.11 总结 96 参考文献 97 第5章 强化学习中的迁移:框架和概观 101 5.1 简介 101 5.2 强化学习迁移的框架和分类 102 5.2.1 迁移框架 102 5.2.2 分类 104 5.3 固定状态–动作空间中从源到目标迁移的方法 108 5.3.1 问题形式化 108 5.3.2 表示迁移 109 5.3.3 参数迁移 110 5.4 固定状态–动作空间中跨多任务迁移的方法 111 5.4.1 问题形式化 111 5.4.2 实例迁移 111 5.4.3 表示迁移 112 5.4.4 参数迁移 113 5.5 不同状态–动作空间中从源到目标任务迁移的方法 114 5.5.1 问题形式化 114 5.5.2 实例迁移 115 5.5.3 表示迁移 115 5.5.4 参数迁移 116 5.6 总结和开放性问题 116 参考文献 117 第6章 探索的样本复杂度边界 122 6.1 简介 122 6.2 预备知识 123 6.3 形式化探索效率 124 6.3.1 探索的样本复杂度和PAC-MDP 124 6.3.2 遗憾最小化 125 6.3.3 平均损失 127 6.3.4 贝叶斯框架 127 6.4 通用PAC-MDP定理 128 6.5 基于模型的方法 130 6.5.1 Rmax 130 6.5.2 Rmax的泛化 132 6.6 无模型方法 138 6.7 总结 141 参考文献 141 第三部分 建设性的表征方向 第7章 连续状态和动作空间中的强化学习 146 7.1 简介 146 7.1.1 连续域中的马尔可夫决策过程 147 7.1.2 求解连续MDP的方法 148 7.2 函数逼近 149 7.2.1 线性函数逼近 150 7.2.2 非线性函数逼近 153 7.2.3 更新参数 154 7.3 近似强化学习 157 7.3.1 数值逼近 157 7.3.2 策略逼近 162 7.4 双极车杆实验 168 7.5 总结 171 参考文献 171 第8章 综述:求解一阶逻辑马尔可夫决策过程 179 8.1 关系世界中的顺序决策简介 179 8.1.1 马尔可夫决策过程:代表性和可扩展性 180 8.1.2 简短的历史和与其他领域的联系 181 8.2 用面向对象和关系扩展马尔可夫决策过程 183 8.2.1 关系表示与逻辑归纳 183 8.2.2 关系型马尔可夫决策过程 184 8.2.3 抽象问题和求解 184 8.3 基于模型的解决方案 186 8.3.1 贝尔曼备份的结构 186 8.3.2 确切的基于模型的算法 187 8.3.3 基于近似模型的算法 190 8.4 无模型的解决方案 192 8.4.1 固定泛化的价值函数学习 192 8.4.2 带自适应泛化的价值函数 193 8.4.3 基于策略的求解技巧 196 8.5 模型、层级、偏置 198 8.6 现在的发展 201 8.7 总结和展望 203 参考文献 204 第9章 层次式技术 213 9.1 简介 213 9.2 背景 215 9.2.1 抽象动作 215 9.2.2 半马尔可夫决策问题 216 9.2.3 结构 217 9.2.4 状态抽象 218 9.2.5 价值函数分解 219 9.2.6 优化 220 9.3 层次式强化学习技术 220 9.3.1 选项 221 9.3.2 HAMQ学习 222 9.3.3 MAXQ 223 9.4 学习结构 226 9.5 相关工作和当前研究 228 9.6 总结 230 参考文献 230 第10章 针对强化学习的演化计算 235 10.1 简介 235 10.2 神经演化 237 10.3 TWEANN 239 10.3.1 挑战 239 10.3.2 NEAT 240 10.4 混合方法 241 10.4.1 演化函数近似 242 10.4.2 XCS 243 10.5 协同演化 245 10.5.1 合作式协同演化 245 10.5.2 竞争式协同演化 246 10.6 生成和发展系统 247 10.7 在线方法 249 10.7.1 基于模型的技术 249 10.7.2 在线演化计算 250 10.8 总结 251 参考文献 251 第四部分 概率模型 第11章 贝叶斯强化学习 260 11.1 简介 260 11.2 无模型贝叶斯强化学习 261 11.2.1 基于价值函数的算法 261 11.2.2 策略梯度算法 264 11.2.3 演员–评论家算法 266 11.3 基于模型的贝叶斯强化学习 268 11.3.1 由POMDP表述的贝叶斯强化学习 268 11.3.2 通过动态规划的贝叶斯强化学习 269 11.3.3 近似在线算法 271 11.3.4 贝叶斯多任务强化学习 272 11.3.5 集成先验知识 273 11.4 有限样本分析和复杂度问题 274 11.5 总结和讨论 275 参考文献 275 第12章 部分可观察的马尔可夫决策过程 279 12.1 简介 279 12.2 部分可观察环境中的决策 280 12.2.1 POMDP模型 280 12.2.2 连续和结构化的表达 281 12.2.3 优化决策记忆 282 12.2.4 策略和价值函数 284 12.3 基于模型的技术 285 12.3.1 基于MDP的启发式解决方案 285 12.3.2 POMDP的值迭代 286 12.3.3 确切的值迭代 288 12.3.4 基于点的值迭代方法 290 12.3.5 其他近似求解方法 291 12.4 无先验模型的决策 292 12.4.1 无记忆技术 292 12.4.2 学习内部记忆 292 12.5 近期研究趋势 294 参考文献 295 第13章 预测性定义状态表示 300 13.1 简介 300 13.1.1 状态是什么 301 13.1.2 哪一个状态表示 301 13.1.3 为什么使用预测性定义模型 302 13.2 PSR 303 13.2.1 历史及测试 303 13.2.2 测试的预测 304 13.2.3 系统动态向量 304 13.2.4 系统动态矩阵 305 13.2.5 充分的数据集 305 13.2.6 状态 306 13.2.7 更新状态 306 13.2.8 线性PSR 307 13.2.9 线性PSR与POMDP的关联 307 13.2.10 线性PSR的理论结果 308 13.3 PSR模型学习 308 13.3.1 发现问题 308 13.3.2 学习问题 309 13.3.3 估计系统动态矩阵 309 13.4 规划与PSR 309 13.5 PSR的扩展 310 13.6 其他具有预测性定义状态的模型 311 13.6.1 可观测算子模型 311 13.6.2 预测线性高斯模型 312 13.6.3 时序差分网络 312 13.6.4 分集自动机 312 13.6.5 指数族PSR 313 13.6.6 转换PSR 313 13.7 总结 313 参考文献 314 第14章 博弈论和多学习器强化学习 317 14.1 简介 317 14.2 重复博弈 319 14.2.1 博弈论 319 14.2.2 重复博弈中的强化学习 322 14.3 顺序博弈 325 14.3.1 马尔可夫博弈 326 14.3.2 马尔可夫博弈中的强化学习 327 14.4 在多学习器系统中的稀疏交互 330 14.4.1 多等级学习 330 14.4.2 协调学习与稀疏交互 331 14.5 延伸阅读 334 参考文献 334 第15章 去中心化的部分可观察马尔可夫决策过程 338 15.1 简介 338 15.2 Dec-POMDP框架 339 15.3 历史状态与策略 340 15.3.1 历史状态 341 15.3.2 策略 341 15.3.3 策略的结构 342 15.3.4 联合策略的质量 343 15.4 有限域的Dec-POMDP的解决方案 344 15.4.1 穷举搜索和Dec-POMDP复杂性 344 15.4.2 交替最大化 344 15.4.3 Dec-POMDP的最优价值函数 345 15.4.4 前推法:启发式搜索 348 15.4.5 后推法:动态规划 350 15.4.6 其他有限域的方法 353 15.5 延伸阅读 353 15.5.1 一般化和特殊问题 353 15.5.2 有限Dec-POMDP 354 15.5.3 强化学习 355 15.5.4 通信 356 参考文献 356 第五部分 其他应用领域 第16章 强化学习与心理和神经科学之间的关系 364 16.1 简介 364 16.2 经典(巴甫洛夫)条件反射 365 16.2.1 行为 365 16.2.2 理论 366 16.2.3 小结和其他注意事项 367 16.3 操作性(工具性)条件反射 368 16.3.1 动作 368 16.3.2 理论 369 16.3.3 基于模型的控制与无模型的控制 370 16.3.4 小结和其他注意事项 371 16.4 多巴胺 371 16.4.1 多巴胺作为奖励预测误差 372 16.4.2 多巴胺的强化信号的作用 372 16.4.3 小结和其他注意事项 373 16.5 基底神经节 373 16.5.1 基底神经节概述 374 16.5.2 纹状体的神经活动 374 16.5.3 皮质基神经节丘脑循环 375 16.5.4 小结和其他注意事项 377 16.6 总结 378 参考文献 378 第17章 游戏领域的强化学习 387 17.1 简介 387 17.1.1 目标和结构 387 17.1.2 范围 388 17.2 游戏展示厅 388 17.2.1 西洋双陆棋 389 17.2.2 国际象棋 391 17.2.3 围棋 394 17.2.4 俄罗斯方块 398 17.2.5 即时战略游戏 400 17.3 强化学习应用到游戏的挑战 402 17.3.1 表示的设计 402 17.3.2 探索 404 17.3.3 训练数据的来源 405 17.3.4 处理缺失的信息 406 17.3.5 对手建模 407 17.4 在游戏中使用强化学习 407 17.4.1 最具娱乐性的对手 407 17.4.2 开发期间的学习 408 17.5 总结 409 参考文献 410 第18章 机器人领域的强化学习综述 415 18.1 简介 415 18.2 机器人强化学习中的挑战 416 18.2.1 维度灾难 417 18.2.2 真实场景样本灾难 418 18.2.3 真实场景交互灾难 418 18.2.4 模型错误灾难 418 18.2.5 目标规范灾难 419 18.3 机器人强化学习基础 419 18.3.1 价值函数方法 420 18.3.2 策略搜索 421 18.4 表示法带来的可行性 422 18.4.1 智能状态–动作离散化 423 18.4.2 函数近似 423 18.4.3 预构建策略 424 18.5 先验知识带来的可行性 425 18.5.1 示范中的先验知识 425 18.5.2 任务结构中的先验知识 426 18.5.3 先验知识指导探索 427 18.6 仿真模拟带来的可行性 427 18.6.1 模型的作用 427 18.6.2 智力预演 428 18.6.3 从仿真直接迁移到真实机器人 429 18.7 一个学习样例:杯中球任务 429 18.7.1 实验设置:任务和奖励 429 18.7.2 适当的策略表示 430 18.7.3 生成教师的示范 430 18.7.4 使用策略搜索进行强化学习 430 18.7.5 机器人强化学习中使用仿真模拟 431 18.7.6 价值函数方法的替代方案 431 18.8 总结 432 参考文献 432 第六部分 结束语 第19章 总结、未来方向和展望 440 19.1 回顾 440 19.1.1 本书覆盖内容 440 19.1.2 哪些主题没有被包含 441 19.2 展望未来 445 19.2.1 目前未知的内容 445 19.2.2 看起来不可能的强化学习应用 446 19.2.3 有趣的方向 447 19.2.4 专家对未来发展的看法 448 参考文献 449 缩写词 453 索引 455

作者简介:

马可·威宁(Marco Wiering)在荷兰格罗宁根大学人工智能系工作,他发表过各种强化学习主题的文章,研究领域包括强化学习、机器学习、深度学习、目标识别、文本学习,进化计算、机器人等。 马丁·范·奥特罗(Martijn van Otterlo)是荷兰奈梅亨大学认知人工智能小组的一员。主要研究领域是强化学习在环境中的知识表示。

其它内容:

暂无其它内容!


下载点评

  • 一星好评(619+)
  • 必备(899+)
  • 缺页(480+)
  • 朗读(922+)
  • 精校(177+)
  • 影印(126+)
  • 感动(653+)
  • 实用(337+)
  • 藏书馆(445+)
  • 宝藏(345+)
  • 相见恨晚(674+)
  • 神器(1305+)
  • EPUB(204+)
  • 过期(982+)
  • 广告(161+)
  • 超预期(777+)
  • 清晰(128+)

下载评论

  • 菱***兰: ( 2024-05-22 13:19:14 )

    特好。有好多书

  • 用户1717241518: ( 2024-06-01 19:31:58 )

    极速下载EPUB/TXT文件,优质小说推荐收藏,值得收藏。

  • 用户1716969502: ( 2024-05-29 15:58:22 )

    图文功能搭配AZW3/TXT格式,精校数字阅读体验,值得收藏。

  • 用户1735044843: ( 2024-12-24 20:54:03 )

    流畅下载PDF/AZW3文件,完整小说推荐收藏,值得收藏。

  • 用户1726512011: ( 2024-09-17 02:40:11 )

    互动版电子书下载无延迟,支持PDF/MOBI格式导出,操作便捷。


相关书评

暂时还没有人为这本书评论!