![]() |
登入帳戶
| 訂單查詢
| |
||
| 臺灣用戶 |
| 品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 | 服務:香港/台灣/澳門/海外 | 送貨:速遞/郵局/服務站 |
|
新書上架:簡體書
繁體書
十月出版:大陸書
台灣書 |
|
share:
|
||||
|
新書推薦: ![]() 《 匹配 》 售價:HK$ 86.9 ![]() 《 ETF投资 低利率时代财富进阶必修课(普通人躺赢的投资方法,领先一步学会ETF投资,早日赢得财富自由 》 售價:HK$ 75.9 ![]() 《 肩部康复训练 损伤预防 评估与恢复(修订版) 》 售價:HK$ 107.8 ![]() 《 速写随手画 临摹训练素材集 》 售價:HK$ 61.4 ![]() 《 女性的奥秘 》 售價:HK$ 85.8 ![]() 《 理解人性:成熟不是看懂事情 而是看透人性 任何事件中 都别低估人性的影响 》 售價:HK$ 61.6 ![]() 《 看见情绪价值2(做个情绪自由的成年人 不要和别人一起欺负自己,你的情绪比全世界的期待都重要) 》 售價:HK$ 54.8 ![]() 《 罪案调查科:罪终迷局 》 售價:HK$ 58.1 |
| 編輯推薦: |
| 读者通过本书可以了解强化学习中策略迭代,特别是Rollout方法在分布式和多智能体框架下的进展和应用。本书可用作人工智能或系统与控制科学等相关专业的高年级本科生或研究生作为一个学期的课程教材。也适用于开展相关研究工作的专业技术人员作为参考书阅读。 |
| 內容簡介: |
|
本书目的是从作者近出版的《强化学习预控制》教科书中更深入地发展一些方法。特别是,提出了有关涉及多个代理,分区架构和分布式异步计算的系统的新研究。本书还将详细讨论该方法在挑战离散/组合优化问题(例如路由,调度,分配和混合整数编程)中的应用,包括在这些情况下使用神经网络近似。
來源:香港大書城megBookStore,http://www.megbook.com.hk 本书可作为计算机科学与技术、控制科学与技术、电子科学与技术等相关领域研究生和高年级本科生的教学参考书,也可供信息、通信、控制、优化等领域的科研人员参考。 |
| 關於作者: |
| Dimitri P. Bertsekas,德梅萃 P.博塞克斯(Dimitri P. Bertseka),美国MIT终身教授,美国国家工程院院士,清华大学复杂与网络化系统研究中心客座教授。电气工程与计算机科学领域国际知名作者,著有《非线性规划》《网络优化》《动态规划》《凸优化》《强化学习与控制》等十几本畅销教材和专著。 |
| 內容試閱: |
|
本书作者德梅萃·P.博赛卡斯(Dimitri P.Bertsekas)是美国麻省理工学院教授和亚利桑那州立大学教授,也是美国工程院院士。本书是作者近年来相关研究成果的总结。
强化学习,也称为近似动态规划、神经元动态规划。本书的内容围绕强化学习中的策略迭代这一核心概念展开。策略迭代指从某个策略出发,不断产生改进策略的过程。如果仅仅生成一步改进策略,就称为策略前展(Rollout)。大量经验表明,策略前展是当前用得广、为可靠的强化学习方法之一。主要内容: 第1章为动态规划原理; 第2章为策略前展与策略改进; 第3章为专用策略前展算法; 第4章为值和策略的学习; 第5章为无限时间分布式和多智能体算法。 横空出世的围棋软件AlphaZero算法对本书有很大影响。本书内容同样基于策略迭代、值网络和策略网络的神经网络近似表示、并行与分布式计算和前瞻小化约简技术的核心框架构建,并对算法的适用范围做了拓展。本书的特色在于给出了分布式计算和多智能体系统框架下的强化学习策略改进计算的效率提升技术,建立了一步策略改进策略前展方法同控制系统中广泛使用的模型预测控制(MPC)设计方法之间的联系,并描述了策略前展方法在复杂离散和组合优化问题方面的应用。 通过阅读本书,读者可以了解强化学习中的策略迭代,特别是策略前展方法在分布式和多智能体框架下的进展和应用。本书可用作人工智能或系统与控制科学等相关专业的高年级本科生或研究生的教材,也适合开展相关研究工作的专业技术人员作为参考书。 赵千川 清华大学自动化系教授 清华大学智能与网络化系统研究中心主任 2021年10月 |
| 書城介紹 | 合作申請 | 索要書目 | 新手入門 | 聯絡方式 | 幫助中心 | 找書說明 | 送貨方式 | 付款方式 | 香港用户 | 台灣用户 | 海外用户 |
| megBook.com.hk | |
| Copyright © 2013 - 2025 (香港)大書城有限公司 All Rights Reserved. | |