新書推薦:

《
“三言两拍”绘画本
》
售價:HK$
96.8

《
中国对外贸易政策的政治经济分析
》
售價:HK$
165.0

《
如何走好人生下坡路:用坚毅力找到人生低谷的出口
》
售價:HK$
71.5

《
黎曼几何 为爱因斯坦广义相对论奠定了数学基础
》
售價:HK$
52.8

《
十八世纪英国的大众政治(汉译23辑)
》
售價:HK$
74.8

《
《衰落 :英美文化的极限》
》
售價:HK$
74.8

《
清代中国与东亚海域交流 精装 中华学术译丛
》
售價:HK$
107.8

《
寒门攻略
》
售價:HK$
65.8
|
| 編輯推薦: |
|
本书是关于分布强化学习的全面指南,为从概率视角思考决策提供了新的数学框架。本书主要介绍分布强化学习的关键概念及应用,对于重要的结果均给出了数学证明,从而说明分布强化学习有能力解释在人机交互环境中产生的许多复杂且有趣的现象。读者将了解一系列算法和数学理论的发展过程,在这些过程中依次对随机回报进行特征描述、计算和估计,最后基于此做出决策。本书就实际问题给出了有效的解决思路,适合机器人学、计算神经科学、心理学、金融(风险管理)等不同领域的技术人员参考。
|
| 內容簡介: |
|
本书是关于分布式强化学习的全面指南,为从概率视角思考决策问题提供了新的数学框架。本书主要介绍分布式强化学习的关键概念及应用,对于重要的结果均给出了数学证明,从而说明分布式强化学习有能力解释在人机交互环境中产生的许多复杂且有趣的现象。读者将了解一系列算法和数学理论的发展过程,在这些过程中依次对随机回报进行特征描述、计算和估计,最后基于此做出决策。本书就实际问题给出了有效的解决思路,适合机器人学、计算神经科学、心理学、金融(风险管理)等不同领域的技术人员参考,也适合高校计算机、人工智能等相关专业的学生阅读。
|
| 關於作者: |
|
Marc G. Bellemare,Google Brain高级研究科学家,致力于强化学习领域的研究。他是加拿大CIFAR AI Chair,并且是Mila的核心成员。此外,他还是麦吉尔大学兼职教授,蒙特利尔大学兼职教授。他于阿尔伯塔大学获得博士学位。
|
| 目錄:
|
|
译者序前言符号表第1章 导论11.1 为什么是分布强化学习11.2 示例:Kuhn扑克21.3 分布强化学习有何不同31.4 本书的读者对象和结构51.5 参考文献备注6第2章 回报的分布72.1 随机变量及其概率分布72.2 马尔可夫决策过程82.3 弹球模型102.4 回报122.5 贝尔曼方程162.6 随机轨迹的性质172.7 随机变量贝尔曼方程192.8 从随机变量到概率分布222.9 回报分布的替代概念*262.10 技术备注262.11 参考文献备注282.12 练习29第3章 学习回报分布333.1 蒙特卡罗方法333.2 增量学习353.3 时序差分学习363.4 从值到概率383.5 投影过程393.6 分类时序差分学习423.7 学习控制463.8 进一步的考虑 473.9 技术备注473.10 参考文献备注483.11 练习49第4章 算子和度量指标514.1 贝尔曼算子514.2 收缩映射524.3 分布贝尔曼算子544.4 回报函数的Wasserstein距离574.5 概率度量和Cramér距离604.6 收缩性的充分条件624.7 域问题654.8 回报函数的弱收敛性*674.9 随机变量贝尔曼算子*684.10 技术备注694.11 参考文献备注704.12 练习71第5章 分布动态规划765.1 计算模型765.2 回报-分布函数的表示785.3 经验表示795.4 正态表示825.5 固定大小的经验表示845.6 投影步骤865.7 分布动态规划895.8 扩散引起的误差925.9 分布动态规划的收敛性935.10 分布近似的质量965.11 设计分布动态规划算法985.12 技术备注995.13 参考文献备注1025.14 练习103第6章 增量算法1076.1 计算与统计估计1076.2 从算子到增量算法1086.3 分类时序差分学习1096.4 分位数时序差分学习1116.5 理论分析的算法模板1146.6 合理的步长1156.7 收敛性分析概述1176.8 增量算法的收敛性*1196.9 时序差分学习的收敛性*1226.10 分类时序差分学习的收敛性*1246.11 技术备注1266.12 参考文献备注1276.13 练习128第7章 控制1317.1 风险中性控制1317.2 价值迭代和Q-学习1327.3 分布值迭代1347.4 分布最优算子的动力学1357.5 存在多个最优策略时的动态分析*1397.6 风险和风险敏感控制1417.7 风险敏感控制面临的挑战1427.8 条件风险价值*1447.9 技术备注1477.10 参考文献备注1517.11 练习152第8章 统计泛函1558.1 统计泛函概述1558.2 矩1568.3 贝尔曼封闭性1598.4 统计泛函动态规划1618.5 与分布动态规划的关系1638.6 期望分位数动态规划1648.7 统计泛函的无限集合1658.8 矩时序差分学习*1678.9 技术备注1688.10 参考文献备注1698.11 练习170第9章 线性函数近似1739.1 函数近似和混叠1739.2 最优线性价值函数近似1759.3 用于线性价值函数近似的投影贝尔曼算子1769.4 半梯度时序差分学习1799.5 分布强化学习的半梯度算法1819.6 基于带符号分布的算法*1849.7 带符号算法的收敛性*1879.8 技术备注1899.9 参考文献备注1919.10 练习192第10章 深度强化学习19510.1 深度神经网络学习19510.2 基于深度神经网络的分布强化学习19810.3 隐式参数化20010.4 深度强化学习智能体评估20210.5 预测如何塑造状态表示20610.6 技术备注20710.7 参考文献备注20710.8 练习209第11章 两个应用和一个结论21111.1 多智能体强化学习21111.2 计算神经科学21311.3 结论21711.4 参考文献备注218参考文献220
|
| 內容試閱:
|
|
前?言本书的编写开始于2016年11月的一个晚上,在结束了一天毫无研究成果的工作之后,Will和Marc决定尝试一种更有效的强化学习方法。这种方法的灵感来自早期的“压缩和控制”算法(Veness等人,2015)和近期使用分类算法执行回归任务的一些成功经验(van den Oord等人,2016),我清楚地记得,该方法令人既陌生又困惑,同时令人振奋。当时在国王十字(King’s Cross)车站DeepMind办公室的白板上,记录着研究中的许多错误的开始和大量重造轮子的过程,最终分布强化学习算法C51应运而生。研究期间,我们对分布贝尔曼算子的分析与算法开发是同时进行的,直到ICML 2017的截止日期前,我们发现了一个关于分布贝尔曼算子在Wasserstein距离中收缩且能够在玩Atari 2600视频游戏时达到最先进性能的定理。在这些研究结果之后,我们很快又发表了第二篇论文,旨在解释收缩结果与实际C51算法之间仍然存在相当大的差距。后来在Mark参加暑期实习期间我们的三人研究组合就正式组建了,也就是那时关于分布强化学习算法的第一个真正的理论结果出现了。随后出现了QR-DQN、隐式分位数网络(Implicit Quantile Network,IQN)和可预期时序差分学习算法。与此同时,我们还开始研究如何从理论上解释为什么分布强化学习在大规模环境中能带来更好的表现,第一个研究结果表明它并不高效,这进一步加重了我们努力解决该谜团的好奇心。一起写书的最大乐趣之一就是能够花时间更完整地描绘分布强化学习的科学起源。Bellman(1957b)表示,期望回报以外的量应该是有意义的;Howard和Matheson(1972)也明确地考虑了这个问题。早期的研究主要集中于回报分布的单一特征,通常是要优化的标准,例如回报的方差(Sobel,1982)。同样,风险敏感强化学习的许多结果都集中于优化特定的风险度量,例如方差惩罚期望(Mannor和Tsitsiklis,2011)或条件风险值(Chow和Ghavamzadeh,2014)。我们的贡献可能是以更统一的方式对待这些标准和特征,直接把重点放在作为主要兴趣对象的回报分布上,一切都可以从中得出。我们看到这种统一在处理相关问题时取得成效的迹象(Chandak等人,2021)。当然,我们之所以能够解决该问题,是因为概率度量研究取得了相对较新的进展(Székely,2002;Rachev等人,2013),它也是研究递归分布关系的有力工具(R?sler,1992;Rachev和Rüschendorf,1995)以及随机近似理论的主要成果。我们希望通过提供更全面的分布强化处理,来为序列决策和强化学习的进一步发展铺平道路。最直接的效果应该可以在深度强化学习中显现,自ICML上发表关于应用分布预测以提高各种真实和模拟问题性能的第一篇论文以来,已经可以看到这种影响了。特别是我们看到了风险敏感的强化学习是如何在机器人领域提高强化学习的可靠性和有效性的(Vecerik等人,2019;Bodnar等人,2020;Cabi等人,2020)。此外,计算神经科学研究已经证明了采用分布观点的价值,它甚至可以用来解释生物现象(Dabney等人,2020b)。最终,希望这些工作总体上可以帮助我们进一步理解智能体与环境交互的意义。在为本书编写材料的过程中,我们非常幸运地与几位受人尊敬的导师、合作者和学生一起工作,他们愿意与我们共同踏上这段旅程。Rémi Munos在第一个项目的形成过程中发挥了重要作用,并帮助我们阐明了它对DeepMind和科学界的价值。Yee Whye Teh提供了宝贵的建议,指导我们查阅统计学文献,并且安排了住宿,最终让我们三个聚在一起开展工作。Pablo Samuel Castro和Georg Ostrovski消除了诸多技术障碍。Clare Lyle、Philip Amortila、Robert Dadashi、Saurabh Kumar、Nicolas Le Roux、John Martin和Rosie Zhao帮助我们回答了一系列新的问题,直到那时,我们还缺乏正式的语言来描述这些问题,最终产生了更多的问题而不是答案——这就是科学的方式。Yunhao Tang和Harley Wiltzer作为本书初稿的第一批读者,他们对书中符号、观点等的反馈是无价的。非常感谢Adam White和大量匿名审稿人为我们提供的出色的反馈(包括关于文字和关于技术的反馈),这使我们能够对原始书稿进行实质性改进。感谢 Rich Sutton、Andy Barto、Csaba Szepesvári、Kevin Murphy、Aaron Courville、Doina Precup、Prakash Panangaden、David Silver、Joelle Pineau 和 Dale Schuurmans,感谢他们就本书内容进行的讨论。感谢Google、DeepMind、Mila及其他公司的许多同事在技术和专业概念上的指导,特别感谢Bernardo Avila Pires、Jason Baldridge、Pierre-Luc Bacon、Yoshua Bengio、Michael Bowling、Sal Candido、Peter Dayan、Thomas Degris、Audrunas Gruslys、Hado van Hasselt、Shie Mannor、Volodymyr Mnih、Derek Nowrouzezahrai、Adam Oberman、Bilal Piot、Tom Schaul、Danny Tarlow 和 Olivier Pietquin。感谢审阅本书部分内容并帮助我们填补知识空白的人,包括Yinlam Chow、Erick Delage、Pierluca D’Oro、Doug Eck、Amir-massoud Farahmand、Jesse Farebrother、Chris Finlay、Tadashi Kozuno、Hugo Larochelle、Elliot Ludvig、Andrea Michi、Blake Richards、Daniel Slater 和 Simone Totaro。我们还要感谢 Vektor Dewanto、Tyler Kastner、Karolis Ramanauskas、Rylan Schaeffer、Eugene Tarassov和Jun Tian对在线草稿的反馈,以及麦吉尔大学COMP-579学生对草稿介绍进行的Beta测试。我们很幸运能够在DeepMind和Google Brain进行这项研究,这为我们接受更大的挑战提供了物质上的支持和灵感。最后,感谢Francis Bach、Elizabeth Swayze、Matt Valades和麻省理工学院出版社的团队使本书顺利出版。Marc要感谢Judy Loewen、Frédéric Lavoie、Jacqueline Smith、Madeleine Fugère、Samantha Work、Damon MacLeod和Andreas Fidjeland在科学之旅中给予的支持,并感谢Lauren Busheikin提供的大力支持。还要感谢CIFAR和Mila学术界为本书的写作提供了坚实的科学基础。Will还想感谢Zeb Kurth-Nelson和Matt Botvinick,在我们探索神经科学中的分布强化学习时,他们以科学严谨的态度耐心地提供帮助;感谢Koray Kavukcuoglu和Demis Hassabis的热情和鼓励;感谢Rémi Munos支持我们追求随机的、有风险的研究想法;感谢Blair Lyonev作为伙伴,在写书的过程中提供的鼓励和建议。Mark还要感谢Maciej Dunajski、Andrew Thomason、Adrian Weller、Krzysztof Choromanski、Rich Turner和John Aston的监督和指导,以及他的家人和Kristin Goffe的支持。
|
|