《深度强化学习实战》亚历山大-扎伊 pdf电子书[177MB]

编程开发 ZXk394 2026-05-13 84 0 // 自建的夸克api
《深度强化学习实战》亚历山大-扎伊 pdf电子书[177MB]下载

书籍 信息

《深度强化学习实战》pdf电子书下载
《深度强化学习实战》pdf百度网盘
《深度强化学习实战》pdf百度网盘
《深度强化学习实战》pdf百度网盘
《深度强化学习实战》pdf百度网盘

本书先介绍深度强化 学习 的基础知识及相关 算法 ,然后给出多个实战 项目 ,以期让读者可以根据 环境 的直接反馈对 智能 体加以调整和改进, 提升 运用深度强 化学技术 解决实际问题的能力。

本书涵盖深度Q 网络策略 梯度法、演员- 评论 家算法、 进化 算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。本书给出的实战项目紧跟深度强化学习技术的发展 趋势 ,且所有项目示例以Jupter Not ebook 样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学习体验。

本书适合有一定 深度学习机器学习 基础并对强化学习感兴趣的读者 阅读

作者简介:
Alexander Zai曾担任Codesmith(一个沉浸式的编码训练营)首席技术官和技术顾问、Uber 软件 工程 师、Bonjo和 亚马逊 AI机器学习工程师,他也是开源深度学习框架Apache MXNet的贡献者。此外,他还是两家公司的联合创始人,其中一家曾是Y-combinator的参与者。 Brandon Brown从很小的时候就开始 编程大学 期间做过兼职 软件工程 师,但最终选择投身 医疗 行业(在此期间,他在医疗 保健 科技 领域担任软件工程师)。受深度强化学习的启发,他近期专注于计算 精神 病学的 研究

目录:
第一部分 基础篇 2
第1章 什么是强化学习 3
1.1 深度强化学习中的“深度” 4
1.2 强化学习 5
1.3 动态规划与蒙特卡洛 7
1.4 强化学习框架 9
1.5 强化学习可以做什么 12
1. 6 为什么是深度强化学习 14
1.7 教学工具:线图 15
1.8 后续内容概述 17
小结 18
第2章 强化学习问题建模: 马尔可夫 决策 过程 19
2.1 线图与本书的教学 方法 19
2.2 解决多臂老虎机问题 22
2.3 应用老虎机算法优化 广告 投放 31
2.4 利用PyTorch构建网络 33
2.5 解决上下文老虎机问题 35
2.6 马尔可夫性质 39
2.7 预测 未来 奖励: 价值 和策略函数 41
小结 44
第3章 预测最佳状态和 动作 : 深度Q网络 46
3.1 Q函数 46
3.2 Q-learning导航 47
3.3 防止 灾难 性遗忘:经验回放 64
3.4 利用目标网络提高稳定性 69
3.5 回顾 74
小结 76
第4章 学习选择最佳策略:策略梯度法 77
4.1 使用 神经网络 的策略函数 77
4.2 强化良好动作:策略梯度算法 81
4.3 与OpenAI Gym配合 85
4.4 REINFORCE算法 88
小结 93
第5章 利用演员-评论家算法 解决更 复杂 的问题 94
5.1 重构价值-策略函数 95
5.2 分布式 训练 99
5.3 演员-评论家优势算法 104
5.4 N-step演员-评论家算法 112
小结 116
第二部分 进阶篇 117
第6章 可替代的优化方法: 进化算法 118
6.1 另一种强化 学习方法 118
6.2 具有进化策略的强化学习 120
6.3 CartPole的遗传算法 127
6.4 进化算法的优缺点 133
6.5 进化算法作为一种可扩展的替代方案 134
小结 140
第7章 Dist-DQN:获取完整 故事 141
7.1 Q-learning存在的问题 142
7.2 再论 概率 统计 146
7.3 贝尔 曼方程 152
7.4 分布式Q-learning 153
7.5 比较概率分布 163
7.6 模拟 数据 上的Dist-DQN 166
7.7 使用分布式Q-learning玩Freeway 171
小结 176
第8章 好奇 心驱动的 探索 177
8.1 利用预测编码处理稀疏奖励 178
8.2 反向动态预测 181
8.3 搭建《超级马里奥兄弟》环境 183
8.4 预处理和Q网络 185
8.5 创建Q网络和策略函数 187
8.6 内在好奇心模块 190
8.7 可替代的内在奖励机制 202
小结 204
第9章 多智能体强化 学习 205
9.1 从单个到多个智能体 205
9.2 邻域Q-learning 209
9.3 一维伊辛模型 212
9.4 平均场Q-learning和二维伊辛模型 220
9.5 混合合作竞技 游戏 229
小结 238
第10章 强化学习可解释性: 注意力和关系 模型 240
10.1 带注意力和关系偏差的 机器学习可解释性 241
10.2 利用注意力进行关系 推理 243
10.3 对MNIST实现 自注意力 252
10.4 多头注意力和 关系DQN 263
10.5 双Q-learning 269
10.6 训练和注意力 可视化 270
小结 277
第11章 总结:回顾和 路线图 249
11.1 我们学到了什么 279
11.2 深度强化学习中的 未知 课题 281
附录A 数学 、深度学习和PyTorch 284
A.1 线性代数 284
A.2 微积分 286
A.3 深度学习 289
A.4 PyTorch 290
参考资料 294

书籍 下载

夸克网盘下载(文件解压密码 123456 )


百度网盘下载   提取码: 9237


迅雷网盘下载
网盘资源链接限时分享

夸克资源精选合集