《深度强化学习算法与实践：基于PyTorch的实现》 - 张校捷 - 电子工业出版社 - 香港大書城 - Meg Book Store

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書

『簡體書』深度强化学习算法与实践：基于PyTorch的实现

書城自編碼： 3735253
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者：张校捷
國際書號(ISBN)： 9787121429729
出版社：电子工业出版社
出版日期： 2022-02-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 124.2

我要買件

share:

** 我創建的書架 **
未登入.

新書推薦：

我为何而活：罗素自传

《我为何而活：罗素自传》
售價：HK$ 85.8

我很可爱，绝对可爱

《我很可爱，绝对可爱》
售價：HK$ 107.8

溺爱之罪

《溺爱之罪》
售價：HK$ 54.9

走出无力感：解锁生命力量的成长密码（跟随心理咨询师找回积极能量！）

《走出无力感：解锁生命力量的成长密码（跟随心理咨询师找回积极能量！）》
售價：HK$ 65.8

藩屏：明代藩王的艺术与权力（柯律格代表作，一部逆转“边缘”与“他者”的明代藩王物质文化史，填补研究空白）

《藩屏：明代藩王的艺术与权力（柯律格代表作，一部逆转“边缘”与“他者”的明代藩王物质文化史，填补研究空白）》
售價：HK$ 118.8

《史记》纵横新说

《《史记》纵横新说》
售價：HK$ 65.8

放不下的痛：运用脑科学修复创伤的40种方法（神经科学专家带你深入了解创伤背后的脑机制，开启全面康复之旅！）

《放不下的痛：运用脑科学修复创伤的40种方法（神经科学专家带你深入了解创伤背后的脑机制，开启全面康复之旅！）》
售價：HK$ 65.8

经典力学的数学方法（第4版）

《经典力学的数学方法（第4版）》
售價：HK$ 86.9

建議一齊購買：

+

HK$ 114.9
《Easy RL 强化学习教程（》

+

HK$ 137.9
《PyTorch深度学习实战》

+

HK$ 160.8
《Python机器学习经典实例第2版》

+

HK$ 101.2
《人工智能：构建适应复杂环境的智能体（人工智能前沿丛书）》

+

HK$ 262.4
《人工智能：语音识别理解与实践》

+

HK$ 117.5
《深度学习之PyTorch物体检测实战》

編輯推薦：

理论结合实践，从基础的知识开始，深入算法本质介绍各种强化学习环境及其使用方法利用PyTorch动态计算图的特点构造深度学习算法涵盖各种强化学习算法，包括基于价值函数和基于策略的强化学习算法介绍强化学习在不同领域的应用，如何根据具体情况选择不同的强化学习算法

內容簡介：

本书从强化学习的基础知识出发，结合PyTorch深度学习框架，介绍深度强化学习算法各种模型的相关算法原理和基于PyTorch的代码实现。作为一本介绍深度强化学习知识的相关图书，本书介绍了常用的强化学习环境，基于价值网络的强化学习算法和基于策略梯度的强化学习算法，以及一些常用的比较流行的深度强化学习算法（如蒙特卡洛树搜索）等。另外，还介绍了深度强化学习算法在实际问题中的一些应用。

關於作者：

张校捷，Shopee资深机器学习工程师，负责推荐系统的算法实现和优化。目前主要使用的技术栈是深度学习框架后端的C/C /CUDA，以及深度学习框架前端的Python。熟悉主流的深度学习框架，如PyTorch和TensorFlow，同时熟悉计算机视觉、自然语言处理和推荐系统方面的深度学习算法。作者曾多次作为专题演讲嘉宾，受邀参加Google、PyCon和CSDN主办的技术大会。

目錄：

第1章强化学习简介 1
1.1 强化学习的历史 1
1.1.1 人工智能的历史 1
1.1.2 强化学习和人工智能的关系 4
1.2 强化学习基本概念 8
1.2.1 智能体相关概念 8
1.2.2 马尔可夫决策过程 9
1.2.3 动作价值函数和状态-动作价值函数 11
1.3 强化学习算法的分类 12
1.3.1 基于模型的（Model-Based）和无模型的（Model-Free） 13
1.3.2 基于策略的（Policy-Based）和基于价值的（Value-Based） 13
1.3.3 在线（On-policy）算法和离线（Off-policy）算法 13
1.4 深度强化学习基本概念 14
1.5 强化学习的优缺点 15
1.6 蒙特卡洛梯度估计 15
1.7 总结 19
第2章深入了解强化学习 20
2.1 强化学习基本要素 20
2.1.1 马尔可夫决策过程和回溯图 20
2.1.2 贪心策略和策略 22
2.1.3 策略的迭代算法 24
2.2 强化学习的探索和利用 26
2.3 策略迭代和价值迭代 32
2.3.1 策略迭代 32
2.3.2 价值迭代 33
2.4 贝尔曼方程及其应用 35
2.5 总结 37
第3章强化学习环境 38
3.1 简单的强化学习环境 39
3.1.1 网格世界（Grid World） 39
3.1.2 多臂赌博机（Multi-armed Bandit） 40
3.1.3 井字棋（Tic-Tac-Toe） 40
3.2 OpenAI Gym环境 47
3.2.1 Gym环境的安装和基本接口 47
3.2.2 Gym的经典控制环境 50
3.2.3 Gym的Atari强化学习环境 53
3.2.4 Gym的MuJoCo环境 55
3.2.5 自定义Gym强化学习环境 57
3.3 DeepMind Lab强化学习环境 60
3.4 其他强化学习环境 63
3.4.1 PySC2 强化学习环境 63
3.4.2 OpenSpiel强化学习环境 66
3.5 深度强化学习框架简介 68
3.5.1 Dopamine框架 68
3.5.1 ReAgent框架 70
3.6 总结 71
第4章深度Q函数强化学习算法 72
4.1 经典深度Q网络算法（DQN） 72
4.1.1 DQN算法理论背景 73
4.1.2 DQN模型结构 75
4.1.3 DQN模型的输入 78
4.1.4 DQN模型的训练 80
4.1.5 结合DQN算法的采样和模型的训练 82
4.2 双网络Q学习算法（Double Q-Learning） 84
4.2.1 算法原理 84
4.2.2 算法实现 86
4.2.3 算法效果 88
4.3 优先经验回放（Prioritized Experience Replay） 89
4.3.1 算法原理 89
4.3.2 算法实现 92
4.3.3 算法效果 95
4.4 竞争DQN算法（Duel DQN） 96
4.4.1 算法原理 98
4.4.2 算法实现 99
4.4.3 算法效果 102
4.5 分布形式的DQN算法（Distributional DQN） 103
4.5.1 分类DQN模型 103
4.5.2 分类DQN模型算法实现 106
4.5.3 分类DQN模型算法效果 110
4.5.4 分位数回归DQN模型 111
4.5.5 分位数回归DQN模型算法实现 112
4.5.6 分位数回归DQN模型算法效果 115
4.5.7 分类DQN模型小结 116
4.6 彩虹算法（Rainbow） 117
4.6.1 彩虹算法对DQN的优化 117
4.6.2 彩虹算法的部分实现 120
4.6.3 彩虹算法的模型效果 125
4.7 总结 128
第5章策略梯度强化学习算法 129
5.1 经典策略梯度算法（VPG） 130
5.1.1 算法原理 130
5.1.2 基于离散动作空间算法的模型实现 132
5.1.3 基于离散动作空间算法的运行结果 137
5.1.4 基于连续动作空间算法的实现 138
5.1.5 基于连续动作空间算法的运行结果 143
5.1.6 小结 144
5.2 优势演员-评论家算法（A2C和A3C） 145
5.2.1 算法原理 145
5.2.2 泛化优势估计（Generalized Advantage Estimation） 147
5.2.3 熵正则化方法 149
5.2.4 优势演员-评论家算法的实现（离散动作空间） 149
5.2.5 优势演员-评论家算法运行效果（离散动作空间） 158
5.2.6 算法实现（连续动作空间） 158
5.2.7 运行效果（连续动作空间） 160
5.2.8 异步优势演员-评论家算法的实现 160
5.2.9 异步优势演员-评论家算法的效果 164
5.3 置信区间策略优化算法 165
5.3.1 算法原理 166
5.3.2 近端策略优化算法的实现 172
5.3.3 近端策略优化算法的效果（离散动作空间） 174
5.4 克罗内克分解近似置信区间算法（ACKTR） 175
5.4.1 算法原理 175
5.4.2 算法实现 179
5.4.3 算法效果 183
5.5 软演员-评论家算法（SAC） 184
5.5.1 算法的基本原理 184
5.5.2 算法的实现（连续动作空间） 186
5.5.3 算法的效果（连续动作空间） 193
5.6 总结 194
第6章其他强化学习算法 195
6.1 噪声网络（Noisy Networks） 195
6.1.1 噪声网络的原理 195
6.1.2 噪声网络的实现 197
6.1.3 噪声网络的效果 201
6.2 深度确定性策略梯度算法（DDPG） 203
6.2.1 算法原理 203
6.2.2 算法实现 205
6.2.3 算法效果 209
6.3 双延迟深度确定性策略梯度算法（TD3） 210
6.3.1 算法原理 210
6.3.2 算法实现 211
6.3.3 算法效果 213
6.4 蒙特卡洛树搜索（MCTS） 214
6.4.1 算法原理 214
6.4.2 算法的基本步骤 215
6.4.3 算法使用的模型 219
6.4.4 算法的博弈树表示 221
6.4.5 算法的搜索执行过程 222
6.5 总结 225
第7章深度强化学习在实践中的应用 226
7.1 神经网络结构搜索（NAS） 226
7.1.1 算法原理 226
7.1.2 算法效果 229
7.1.3 总结 230
7.2 超分辨率模型（SRGAN） 230
7.2.1 算法原理 231
7.2.2 总结 232
7.3 序列生成模型（SeqGAN） 233
7.3.1 算法原理 233
7.3.2 总结 235
7.4 基于深度强化学习的推荐系统 235
7.4.1 推荐系统的强化学习环境构建 236
7.4.2 推荐系统的强化学习算法 237
7.4.3 总结 238
7.5 基于深度强化学习的交易系统 239
7.5.1 算法原理 239
7.5.2 总结 241
7.6 总结 241
附录A 本书使用的数学符号 242
参考文献 244

內容試閱：

序
强化学习这个研究领域自从被人们发现后，一直是人工智能算法中的一大重要研究课题。因为强化学习算法自身仅从环境中获取相应的学习数据，与人类的学习和认知过程接近，强化学习算法也是通用人工智能算法的一个强有力的候选。从2010年开始，随着深度学习在人工智能领域的飞速发展，结合了深度学习模型和强化学习算法的深度强化学习算法也得到了飞速发展。深度强化学习算法具有强化学习算法对周围环境的学习能力，同时还拥有深度模型强大的对数据的特征提取和拟合能力，它正被广泛应用于各个领域。在一些原本认为人类占据优势的领域（比如游戏领域），深度强化学习算法也逐渐打平甚至超越了人类的水平。例如，深度强化学习算法的高光时刻应该是AlphaGo在围棋比赛中以较大的优势赢得了人类世界冠军的比赛。在引入深度学习模型后，AlphaGo使用的强化学习算法，也就是蒙特卡洛树搜索算法的搜索能力有了显著提高，甚至可以让专业的运动员认为通过算法得到的某些棋子的落点是神来之笔，完全摆脱了人们对计算机算法呆板、不知变通的印象。当然，这些进展也有赖于硬件水平和算力的飞速提高。相信在不久的将来，随着算力的继续提高，人们可以开发出更复杂的深度学习模型，结合强化学习算法，后逐渐逼近通用人工智能的理想。
作为一本深度强化学习的入门图书，本书要解决的一大问题是如何帮助读者快速入门相关领域的知识。一方面，笔者在初学强化学习算法的时候，看的书主要描述的都是强化学习的理论知识，关于算法见得多的是描述算法如何实现的流程图，相反很少涉及把算法转化成具体的代码的内容。不同于一般的计算机算法，对于深度强化学习算法来说，实现细节是非常重要的，一些实现细节，比如特征提取、深度模型的超参数（如学习率、迷你批次大小等）对于模型的收敛至关重要。笔者在实现这些算法的过程中，很多情况下都会对具体的实现细节感到苦恼，常常需要仔细阅读原始论文，甚至查看网上类似的实现，后才能得到自己的能够收敛的算法代码。笔者觉得这些细节部分并非无关紧要，而是关乎算法在工程上是否能够实现。如果讲清楚了细节，很可能会为读者节省宝贵的时间，也能更好地帮助读者理解深度强化学习算法需要解决的问题。另一方面，对于如何进行内容上的组织，笔者考虑再三，决定还是采取先理论基础、后实践的方式，在理论基础方面，读者可以随意跳过一些觉得比较复杂的章节，先看具体的实现，等到需要回顾理论的时候再回头参考相关的理论。后，本文的参考内容除了少部分来源于教科书，大部分都来源于参考文献，可以说尽可能提取这些参考文献的精华部分，利用的参考文献也尽可能新，除了一些经典算法，使用的参考文献都是近五年来新的研究成果，笔者希望对的研究成果的归纳能够对读者把算法应用到实践中有所启发。
本书的另一个特点就是使用了PyTorch作为深度学习框架。作为一个成熟的深度学习框架，PyTorch的特点是使用方便，容易上手，而且容易和原生Python代码集成（也就是所谓的“Pythonic”），笔者日常也比较偏爱这个深度学习框架，因此在撰写本书的时候使用的是PyTorch来实现所有的强化学习算法。本书在成书时使用的PyTorch的版本是1.8，这个版本相对来说还是比较新的，但是笔者为了保持的向前兼容性，会尽可能避免使用的一些特性，理论上说，本书绝大部分代码在PyTorch 1.0以上版本都能运行。另外，如果有希望对PyTorch进行快速入门的读者，可以参考PyTorch官网的教程或者笔者之前的图书《深入浅出PyTorch——从模型到源码》。
本书配套的源代码可以按照“读者服务”的提示获取。
后，我想要感谢大家在成书过程中对我的支持和帮助，特别是电子工业出版社李利健编辑，在成书过程中给了我很大支持。还有我的师兄、师弟，以及业界的朋友，他们对本书的初稿提出了不少宝贵的意见。鉴于本书成书仓促，不免有错漏之处，恳请读者批评、指正。
张校捷

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.