新書推薦: 《 
			谎言的逻辑:洞悉谎言背后真实的心理和人性 专享版
			》  售價:HK$ 
			54.8
			  
			《 
			汗青堂丛书022——罗马元老院与人民:一部古罗马史(新版)
			》  售價:HK$ 
			140.8
			  
			《 
			陈舜臣近代史三部曲 甲午战争 太平天国兴亡录 走向辛亥
			》  售價:HK$ 
			249.7
			  
			《 
			希腊精神——一部文明史(二十世纪人文译丛)
			》  售價:HK$ 
			85.8
			  
			《 
			世界文明史(上)
			》  售價:HK$ 
			209.0
			  
			《 
			东亚朱子学研究:日本朱子学研究
			》  售價:HK$ 
			85.8
			  
			《 
			长沙走马楼西汉简牍 文字编
			》  售價:HK$ 
			424.8
			  
			《 
			涅瓦河畔的遐思——列宾艺术特展(汉英对照)(国家博物馆“国际交流系列”丛书)
			》  售價:HK$ 
			587.6
			  
			 
     
      
      
         
          編輯推薦:  
         
           
            本书的目的是提出并构建近似动态规划和强化学习的理论框架。这一框架以两个算法为中心,这两个算法在很大程度上彼此独立地设计出来并通过牛顿法的有力机制融洽地合作使用。本书是原作者在美国亚利桑那州立大学讲课过程中完成。课程视频和课件可从作者网站下载。
           
         
      
      
      
      
      
         
          內容簡介:  
         
           
            大致内容:第一章,从阿尔法零的卓越性能出发,深入解读其背后着实不易的成长历程,揭示其数学模型。第二章,从确定性和随机动态规划问题入手,介绍决策问题的数学模型。第三章,从抽象视角回顾纷繁复杂的强化学习算法,揭示值函数近似与滚动改进的重要作用。第四章,从经典的线性二次型最优控制问题入手,分析从阿尔法零的成功中学到的经验。第五章,分别从鲁棒、自适应、模型预测控制等问题入手,分析值函数近似与滚动改进对算法性能的提升潜力。第六章,从离散优化的视角审视阿尔法零的成功经验。第七章,总结全书。适合作为本领域研究者作为学术专著阅读,也适合作为研究生和本科生作为参考书使用。
           
         
      
      
      
      
         
          關於作者:  
         
           
            贾庆山,清华大学长聘教授。主要研究信息物理融合能源系统的优化理论与方法。发表四十篇IEEE汇刊论文。获得2009年国家自然科学奖二等奖、2018年国家自然科学奖二等奖、2020年自然科学奖二等奖,多次获得国际期刊、国际会议最佳论文奖。担任IEEE Internet of Things Activity Board委员、IEEE控制系统协会Board of Governors委员、IEEE控制系统协会北京分会主席、IEEE机器人与自动化协会智能建筑专业委员会副主席、IFAC智慧城市控制专业委员会主席。曾任IEEE控制系统协会离散事件系统专业委员会主席。担任中国自动化学会第十一届控制理论专业委员会委员兼副秘书长,中国自动化学会第一届工业控制系统信息安全专业委员会委员。
           
         
      
      
      
      
      
         
          目錄  
         
           
            第 1 章 阿尔法零、离线训练和在线学习 1 
 
         
      
      
      
      
         
          內容試閱  
         
           
            用四个参数我可以拟合出一头大象,用五个参数我可以让它摆动身体。①(