《定制版--强化学习（第2版）》 - 俞凯等，[加]Richard S. Sutton[理查德· - 电子工业出版社 - 香港大書城 - Meg Book Store

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書

『簡體書』定制版--强化学习（第2版）

書城自編碼： 4083971
分類：簡體書→大陸圖書→計算機/網絡→程序設計
作者：俞凯等，[加]Richard S. Sutton[理查德·
國際書號(ISBN)： 9787121295164
出版社：电子工业出版社
出版日期： 2025-02-01

頁數/字數： /
釘裝：平塑勒

售價：HK$ 184.8

我要買件

share:

** 我創建的書架 **
未登入.

新書推薦：

郭实猎与“开放中国”——19世纪上半叶的中西碰撞（精）

《郭实猎与“开放中国”——19世纪上半叶的中西碰撞（精）》
售價：HK$ 74.8

海外中国研究·中国古代的身份制：良与贱

《海外中国研究·中国古代的身份制：良与贱》
售價：HK$ 85.8

国色（《寻色中国》首席色彩顾问郭浩重磅力作，中国传统色丰碑之作《国色》，探寻中国人的色彩世界！）

《国色（《寻色中国》首席色彩顾问郭浩重磅力作，中国传统色丰碑之作《国色》，探寻中国人的色彩世界！）》
售價：HK$ 217.8

图解组织心理学：从零开始养成领导力

《图解组织心理学：从零开始养成领导力》
售價：HK$ 74.8

牛津西方哲学史（中文修订版）

《牛津西方哲学史（中文修订版）》
售價：HK$ 140.8

萤火虫全球史：西方人眼中的古代丝绸之路

《萤火虫全球史：西方人眼中的古代丝绸之路》
售價：HK$ 83.6

大宋300年（写尽三百载大宋繁华与沉浮、浪漫与风霜）

《大宋300年（写尽三百载大宋繁华与沉浮、浪漫与风霜）》
售價：HK$ 75.9

害马之群：失控的群体如何助长个体的不当行为

《害马之群：失控的群体如何助长个体的不当行为》
售價：HK$ 96.8

建議一齊購買：

+

HK$ 97.9
《openEuler：异构融合操作系统关键技术与应用实践》

+

HK$ 87.8
《量子计算实战》

+

HK$ 124.8
《JavaScript悟道》

+

HK$ 135.7
《大语言模型开发：用开源模型开发本地系统》

+

HK$ 121.4
《PHP 从入门到项目实践（超值版）》

+

HK$ 80.3
《算法图解（第2版）》

內容簡介：

《强化学习（第2版）》作为强化学习思想的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

目錄：

目录
第1 章导论...................................1
1.1 强化学习...............................1
1.2 示例.................................4
1.3 强化学习要素............................5
1.4 局限性与适用范围..........................7
1.5 扩展实例：井字棋..........................8
1.6 本章小结...............................12
1.7 强化学习的早期历史.........................13
第I 部分表格型求解方法...........................23
第2 章多臂赌博机...............................25
2.1 一个k 臂赌博机问题........................25
2.2 动作-价值方法............................27
2.3 10 臂测试平台............................28
2.4 增量式实现.............................30
2.5 跟踪一个非平稳问题.........................32
2.6 乐观初始值.............................34
2.7 基于置信度上界的动作选择.....................35
2.8 梯度赌博机算法...........................37
2.9 关联搜索(上下文相关的赌博机) ..................40
2.10 本章小结..............................41
强化学习(第2 版)
第3 章有限马尔可夫决策过程........................45
3.1 “智能体-环境”交互接口......................45
3.2 目标和收益.............................51
3.3 回报和分幕.............................52
3.4 分幕式和持续性任务的统一表示法.................54
3.5 策略和价值函数...........................55
3.6 最优策略和最优价值函数......................60
3.7 最优性和近似算法..........................65
3.8 本章小结...............................66
第4 章动态规划................................71
4.1 策略评估(预测) ..........................72
4.2 策略改进...............................75
4.3 策略迭代...............................78
4.4 价值迭代...............................80
4.5 异步动态规划............................83
4.6 广义策略迭代............................84
4.7 动态规划的效率...........................85
4.8 本章小结...............................86
第5 章蒙特卡洛方法.............................89
5.1 蒙特卡洛预测............................90
5.2 动作价值的蒙特卡洛估计......................94
5.3 蒙特卡洛控制............................95
5.4 没有试探性出发假设的蒙特卡洛控制................98
5.5 基于重要度采样的离轨策略.....................101
5.6 增量式实现.............................107
5.7 离轨策略蒙特卡洛控制.......................108
5.8 折扣敏感的重要度采样......................110
5.9 每次决策型重要度采样......................112
5.10 本章小结..............................113
第6 章时序差分学习.............................117
6.1 时序差分预测............................117
6.2 时序差分预测方法的优势......................122
6.3 TD(0) 的最优性...........................124
6.4 Sarsa：同轨策略下的时序差分控制.................127
6.5 Q 学习：离轨策略下的时序差分控制................129
6.6 期望Sarsa ..............................131
6.7 最大化偏差与双学习.........................133
6.8 游戏、后位状态和其他特殊例子...................135
6.9 本章小结...............................136
第7 章n 步自举法...............................139
7.1 n 步时序差分预测..........................140
7.2 n 步Sarsa ..............................144
7.3 n 步离轨策略学习..........................146
7.4 带控制变量的每次决策型方法...................148
7.5 不需要使用重要度采样的离轨策略学习方法：n 步树回溯算法...150
7.6 一个统一的算法：n 步Q()....................153
7.7 本章小结...............................155
第8 章基于表格型方法的规划和学习...................157
8.1 模型和规划.............................157
8.2 Dyna：集成在一起的规划、动作和学习...............159
8.3 当模型错误的时候..........................164
8.4 优先遍历...............................166
8.5 期望更新与采样更新的对比.....................170
8.6 轨迹采样...............................173
强化学习(第2 版)8.7 实时动态规划............................176
8.8 决策时规划.............................179
8.9 启发式搜索.............................180
8.10 预演算法..............................182
8.11 蒙特卡洛树搜索..........................184
8.12 本章小结..............................187
8.13 第I 部分总结...........................188
第II 部分表格型近似求解方法........................193
第9 章基于函数逼近的同轨策略预测...................195
9.1 价值函数逼近............................195
9.2 预测目标(VE ) ...........................196
9.3 随机梯度和半梯度方法.......................198
9.4 线性方法...............................202
9.5 线性方法的特征构造.........................207
9.5.1 多项式基...........................208
9.5.2 傅立叶基...........................209
9.5.3 粗编码.............................212
9.5.4 瓦片编码...........................214
9.5.5 径向基函数..........................218
9.6 手动选择步长参数..........................219
9.7 非线性函数逼近：人工神经网络...................220
9.8 最小二乘时序差分..........................225
9.9 基于记忆的函数逼近.........................227
9.10 基于核函数的函数逼近.......................229
9.11 深入了解同轨策略学习：“兴趣”与“强调” ............230
9.12 本章小结..............................232
iv
目录
第10 章基于函数逼近的同轨策略控制...................239
10.1 分幕式半梯度控制........................239
10.2 半梯度n 步Sarsa.........................242
10.3 平均收益：持续性任务中的新的问题设定.............245
10.4 弃用折扣.............................249
10.5 差分半梯度n 步Sarsa ......................251
10.6 本章小结.............................252
第11 章基于函数逼近的离轨策略方法..................253
11.1 半梯度方法............................254
11.2 离轨策略发散的例子.......................256
11.3 致命三要素............................260
11.4 线性价值函数的几何性质.....................262
11.5 对贝尔曼误差做梯度下降.....................266
11.6 贝尔曼误差是不可学习的.....................270
11.7 梯度TD 方法...........................274
11.8 强调TD 方法...........................278
11.9 减小方差.............................279
11.10 本章小结.............................280
第12 章资格迹.................................283
12.1 -回报...............................284
12.2 TD()...............................287
12.3 n-步截断- 回报方法.......................291
12.4 重做更新：在线-回报算法...................292
12.5 真实的在线TD() ........................294
12.6 蒙特卡洛学习中的荷兰迹....................296
12.7 Sarsa()..............................298
12.8 变量和
............................303
v
强化学习(第2 版)
12.9 带有控制变量的离轨策略资格迹.................304
12.10 从Watkins 的Q() 到树回溯TB() ...............308
12.11 采用资格迹保障离轨策略方法的稳定性..............310
12.12 实现中的问题...........................312
12.13 本章小结.............................312
第13 章策略梯度方法.............................317
13.1 策略近似及其优势........................318
13.2 策略梯度定理...........................320
13.3 REINFORCE：蒙特卡洛策略梯度................322
13.4 带有基线的REINFORCE ....................325
13.5 “行动器-评判器”方法......................327
13.6 持续性问题的策略梯度......................329
13.7 针对连续动作的策略参数化方法.................332
13.8 本章小结.............................333
第III 部分表格型深入研究..........................337
第14 章心理学.................................339
14.1 预测与控制............................340
14.2 经典条件反射...........................341
14.2.1 阻塞与高级条件反射.....................342
14.2.2 Rescorla-Wagner 模型....................344
14.2.3 TD 模型.......

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.