《强化学习的数学原理》 - 赵世钰 - 清华大学出版社 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』强化学习的数学原理

書城自編碼： 4091660
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者：赵世钰
國際書號(ISBN)： 9787302685678
出版社：清华大学出版社
出版日期： 2025-04-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 118.8

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《莎士比亚全集十卷》
售價：HK$ 591.8

《 7天造一台无人机：飞控、电池、动力系统、地面站全解析》
售價：HK$ 75.9

《大地上的中国史：藏在地理里的历史》
售價：HK$ 74.8

《《民法典·婚姻家庭继承注释书》（家事法专用小红书，一书尽揽现行有效办案依据：条文释义+相关立法+行政法规+地方立法+司法解释+司法文件+地方法院规范+权威案例，麦读法律54）》
售價：HK$ 130.9

《地中海四千年》
售價：HK$ 184.8

《君子至交：丁聪、萧乾、茅盾等与荒芜通信札记》
售價：HK$ 68.2

《日和·缝纫机与金鱼》
售價：HK$ 41.8

《金手铐（讲述海外留学群体面临的困境与挣扎、收获与失去）》
售價：HK$ 74.8

編輯推薦：

·从零开始到透彻理解，知其然并知其所以然；
·本书在GitHub收获5000 星；
·课程视频全网播放超过100万；
·国内外读者反馈口碑爆棚；
·教材、视频、课件三位一体。

內容簡介：

本书将从强化学习最基本的概念开始介绍，将介绍基础的分析工具包括贝尔曼公式和贝尔曼最优公式，之后会推广到基于模型的和无模型的强化学习算法，最后会推广到基于函数逼近的强化学习方法。本书强调从数学的角度接引入概念、分析问题、分析算法。并不强调算法的编程实现，因为目前已经有很多这方面的书籍，本书将不再重复造轮子。
本书面向对强化学习感兴趣的本科生、研究生、研究人员和企业研究所从业者。
它不需要读者有任何关于强化学习的背景，因为它会从最基本的概念开始介绍。如果读者已经有一些强化学习的背景，这本书也可以帮助他们更深入地理解一些问题或者带来新的视角。
本书要求读者具备一定的概率论和线性代数知识。本书的附录中包含了一些必需的数学基础知识。

關於作者：

赵世钰目前是西湖大学工学院特聘研究员、博士生导师、智能无人系统实验室主任、国家海外高层次人才引进计划（青年项目）获得者。他本硕毕业于北京航空航天大学，博士毕业于新加坡国立大学。他2019年回国加入西湖大学工学院，回国之前在英国谢菲尔德大学自动控制与系统工程系担任讲师和博士生导师，该系是英国唯一一个专注于自动控制领域的院系。
赵世钰在系统与控制领域具有丰富的理论和实践研究经验，他已在控制与机器人领域的国际期刊和会议发表研究论文50余篇。主要代表性研究成果为多机器人协同控制与估计，特别是方位刚性理论及其在网络系统中的应用，相关成果以综述论文的形式发表在IEEE控制系统学会权威官方杂志IEEE Control Systems Magazine。他是绝大多数控制和机器人领域的国际顶级期刊和会议的审稿人。他是多个国际重要会议的编委（包括IEEE IROS， CDC， ACC， ICCA， ICARCV， ICUAS），IEEE控制系统协会编委会委员，并担任ICCA2018的英国区域主席和ICCA2019的程序委员会主席。此外，他是国际期刊Unmanned Systems的编委。赵世钰曾获得领跑者5000——中国精品科技期刊顶尖论文、2014年第33届中国控制会议关肇直奖。

第 1章基本概念 .............................................................................................. 1
1.1网格世界例子 ...................................................................................... 2
1.2状态和动作 ......................................................................................... 2
1.3状态转移 ............................................................................................. 3
1.4策略 ................................................................................................... 5
1.5奖励 ................................................................................................... 7
1.6轨迹、回报、回合 ............................................................................... 9
1.7马尔可夫决策过程 ............................................................................. 11
1.8总结 ................................................................................................. 13
1.9问答 ................................................................................................. 13
第 2章状态值与贝尔曼方程 ........................................................................... 15
2.1启发示例 1：为什么回报很重要？........................................................ 16
2.2启发示例 2：如何计算回报？............................................................... 17
2.3状态值 .............................................................................................. 19
2.4贝尔曼方程 ....................................................................................... 20
2.5示例 ................................................................................................. 22
2.6矩阵向量形式 .................................................................................... 25
2.7求解状态值 ....................................................................................... 27
2.7.1方法 1：解析解 ....................................................................... 27
2.7.2方法 2：数值解 ....................................................................... 27
2.7.3示例 ....................................................................................... 28
2.8动作值 .............................................................................................. 30
2.8.1示例 ....................................................................................... 31

2.8.2基于动作值的贝尔曼方程 ......................................................... 32
2.9总结
................................................................................................. 32

2.10问答
................................................................................................ 33

第 3章最优状态值与贝尔曼最优方程 .............................................................. 35
3.
1启发示例：如何改进策略？................................................................. 36

3.
2最优状态值和最优策略 ....................................................................... 37

3.
3贝尔曼最优方程 ................................................................................. 38

3.
3.1方程右侧的优化问题 ............................................................... 39

3.3.2矩阵
-向量形式 ........................................................................ 40

3.
3.3压缩映射定理 ......................................................................... 41

3.
3.4方程右侧函数的压缩性质 ......................................................... 44

3.
4从贝尔曼最优方程得到最优策略 ......................................................... 46

3.
5影响最优策略的因素 .......................................................................... 49

3.6总结
................................................................................................. 54

3.7问答
................................................................................................. 54

第 4章值迭代与策略迭代 ............................................................................... 57
4.1值迭代算法
....................................................................................... 58

4.
1.1展开形式和实现细节 ............................................................... 59

4.1.2示例
....................................................................................... 59

4.2策略迭代算法
.................................................................................... 62

4.2.1算法概述
................................................................................ 62

4.
2.2算法的展开形式 ...................................................................... 65

4.2.3示例
....................................................................................... 66

4.
3截断策略迭代算法 ............................................................................. 68

4.
3.1对比值迭代与策略迭代 ............................................................ 68

4.
3.2截断策略迭代算法 ................................................................... 71

4.4总结
................................................................................................. 73

4.5问答
................................................................................................. 73

5.
1启发示例：期望值估计 ....................................................................... 78

5.2
MC Basic：最简单的基于蒙特卡罗的算法 ........................................... 80

5.
2.1将策略迭代算法转换为无需模型 ............................................... 80

5.2.2
MC Basic算法 ........................................................................ 81

5.2.3示例
....................................................................................... 82

5.3
MC Exploring Starts算法 .................................................................. 86

5.
3.1更高效地利用样本 ................................................................... 86

5.
3.2更高效地更新策略 ................................................................... 87

5.3.3算法描述
................................................................................ 87

5.4
MC .-Greedy算法 ............................................................................. 88

5.4.1
.-Greedy策略 ......................................................................... 89

5.4.2算法描述
................................................................................ 89

5.4.3示例
....................................................................................... 91

5.
5探索与利用：以 .-Greedy策略为例 ...................................................... 91

5.6总结
................................................................................................. 96

5.7问答
................................................................................................. 96

第 5章蒙特卡罗方法 ..................................................................................... 77

第 6章随机近似算法 ..................................................................................... 99
6.
1启发示例：期望值估计 ...................................................................... 100

6.2罗宾斯
-门罗算法 ............................................................................... 101

6.2.1收敛性质
............................................................................... 103

6.
2.2在期望值估计问题中的应用 .................................................... 106

6.3
Dvoretzky定理 ................................................................................. 107

6.3.1
Dvoretzky定理的证明 ............................................................ 108

6.
3.2应用于分析期望值估计算法 .................................................... 109

6.
3.3应用于证明罗宾斯-门罗定理 ................................................... 110

6.3.4
Dvoretzky定理的推广 ............................................................ 111

6.4随机梯度下降
................................................................................... 112

6.
4.1应用于期望值估计 .................................................................. 113

6.
4.2随机梯度下降的收敛模式 ........................................................ 114

6.
4.3随机梯度下降的另一种描述 .................................................... 116

6.
4.4小批量梯度下降 ..................................................................... 117

6.
4.5随机梯度下降的收敛性 ........................................................... 118

6.5总结
................................................................................................ 120

6.6问答
................................................................................................ 120

第 7章时序差分方法 .................................................................................... 123
7.
1状态值估计：最基础的时序差分算法 .................................................. 124

7.1.1算法描述
............................................................................... 124

7.1.2性质分析
............................................................................... 126

7.
1.3收敛性证明 ............................................................................ 127

7.2动作值估计：
Sarsa ........................................................................... 130

7.2.1算法描述
............................................................................... 131

7.
2.2学习最优策略 ........................................................................ 132

7.3动作值估计：
n-Step Sarsa................................................................. 135

7.
4最优动作值估计：Q-learning ............................................................. 137

7.4.1算法描述
............................................................................... 137

7.4.2
Off-policy和 On-policy ........................................................... 138

7.4.3算法实现
............................................................................... 140

7.4.4示例
...................................................................................... 141

7.
5时序差分算法的统一框架 .................................................................. 142

7.6总结
................................................................................................ 145

7.7问答
................................................................................................ 145

第 8章值函数方法 ........................................................................................ 149
8.
1价值表示：从表格到函数 .................................................................. 150

8.
2基于值函数的时序差分算法：状态值估计 ........................................... 153

8.2.1目标函数
............................................................................... 154

8.2.2优化算法
............................................................................... 159

8.
2.3选择值函数 ............................................................................ 160

8.2.4示例
...................................................................................... 161

8.2.5理论分析
............................................................................... 165

8.
3基于值函数的时序差分：动作值估计 .................................................. 175

8.
3.1基于值函数的 Sarsa ................................................................ 176

8.
3.2基于值函数的 Q-learning ........................................................ 177

8.4深度
Q-learning................................................................................. 178

8.4.1算法描述 ............................................................................... 179

8.4.2示例
...................................................................................... 180

8.5总结
................................................................................................ 183

8.6问答
................................................................................................ 183

第 9章策略梯度方法 .................................................................................... 187
9.
1策略表示：从表格到函数 .................................................................. 188

9.
2目标函数：定义最优策略 .................................................................. 189

9.
3目标函数的梯度 ................................................................................ 194

9.
3.1推导策略梯度：有折扣的情况 ................................................. 195

9.
3.2推导策略梯度：无折扣的情况 ................................................. 200

9.
4蒙特卡罗策略梯度（REINFORCE）................................................... 206

9.5总结
................................................................................................ 208

9.6问答
................................................................................................ 209

第 10章演员-评论家方法 .............................................................................. 211
10.
1最简单的演员-评论家算法：QAC ..................................................... 212

10.2优势演员
-评论家 ............................................................................. 213

10.
2.1基准不变性 .......................................................................... 213

10.
2.2算法描述 ............................................................................. 215

10.3异策略演员
-评论家 .......................................................................... 217

10.
3.1重要性采样 .......................................................................... 217

10.3.2
Off-policy策略梯度定理 ........................................................ 220

10.
3.3算法描述 ............................................................................. 221

10.4确定性演员
-评论家 .......................................................................... 223

10.
4.1确定性策略梯度定理 ............................................................. 223

10.
4.2算法描述 ............................................................................. 229

10.5总结
............................................................................................... 230

10.6问答
............................................................................................... 231

附录 A概率论基础 ...................................................................................... 233
附录 B测度概率论 ....................................................................................... 239

附录 C序列的收敛性 ................................................................................... 247
C.1确定性序列的收敛性 ........................................................................ 248

C.2随机序列的收敛性 ............................................................................ 250
附录 D梯度下降方法 ................................................................................... 255
符号 ............................................................................................................... 261

索引 ............................................................................................................... 262
参考文献 ........................................................................................................ 265

內容試閱：

本书旨在成为一本数学但是友好的教材，能帮助读者“从零开始”实现对强化学习原理的“透彻理解”。本书的特点如下所述。
. 第一，从数学的角度讲故事，让读者不仅了解算法的流程，更能理解为什么一个算法最初设计成这个样子、为什么它能有效地工作等基本问题。
. 第二，数学的深度被控制在恰当的水平，数学内容也以精心设计的方式呈现，从而确保本书的易读性。读者可以根据自己的兴趣选择性地阅读灰色方框中的数学材料。
. 第三，提供了大量例子，能够帮助读者更好地理解概念和算法。特别是本书广泛使用了网格世界的例子，这个例子非常直观，对理解概念和算法非常有帮助。
. 第四，在介绍算法时尽可能将其核心思想与一些不太重要但是可能让算法看起来很复杂的东西分离开来。通过这种方式，读者可以更好地把握算法的核心思想。
. 第五，本书采用了新的内容组织架构，脉络清晰，易于建立宏观理解，内容层层递进，每一章都依赖于前一章且为后续章节奠定基础。

本书适合对强化学习感兴趣的高年级本科生、研究生、科研人员和工程技术人员阅读。由于本书会从最基本的概念开始介绍，因此不要求读者有任何强化学习的背景。当然，如果读者已经有一些强化学习的背景，我相信本书可以帮助大家更深入地理解一些问题或者提供不同的视角。此外，本书要求读者具备一些概率论和线性代数的知识，这些知识在本书附录中已经给出。
自 2019年以来，我一直在教授研究生的强化学习课程，我要感谢课程中的学生对我的教学提出的反馈建议。自 2022年 8月把这本书的草稿在线发布在 GitHub，到目前为止我收到了许多读者的宝贵反馈，在此对这些读者表示衷心感谢。此外，我还要感谢我的团队成员吕嘉玲在编辑书稿和课程视频方面所做的大量琐碎但是重要的工作；感谢助教李佳楠和米轶泽在我的教学中的勤恳工作；感谢我的博士生郑灿伦在设计书
中图片方面的帮助，以及我的家人的大力支持。
最后，我要感谢清华大学出版社的郭赛编辑和施普林格自然出版社的常兰兰博士，他们对于书稿的顺利出版给予了大力支持。我真诚地希望这本书能够帮助读者顺利进入强化学习这一激动人心的领域。
赵世钰

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.