新書推薦:

《
公私同圣的秩序建构:王权视角下皇帝祭祀与祠神敕封的隔绝和整合 尔文智识生活系列
》
售價:HK$
94.6

《
共生共创:建设师生共同课堂丛书——“三师课堂”案例集萃(第一辑)
》
售價:HK$
74.8

《
大秦丞相李斯:谋国又谋身的大秦帝国“操盘手”
》
售價:HK$
64.9

《
民鸣社与清末民初上海演剧研究
》
售價:HK$
52.8

《
高中历史文献研读教学研究
》
售價:HK$
63.8

《
靠谱:极少数人的成功法则
》
售價:HK$
74.8

《
刹海
》
售價:HK$
74.8

《
我欲因之梦吴越:江南园林之美
》
售價:HK$
129.8
|
| 編輯推薦: |
·前沿技术解析:系统梳理Diffusion-QL、Plan Diffuser、DDPO、Diffusion-DPO等关键算法,紧跟学术与工业界进展。 ·学用双向赋能:不仅讲解扩散模型在强化学习中的应用,更深入探讨强化学习对扩散模型的优化,实现技术闭环。 ·理论实战融合:提供大量可运行的代码实例,涵盖机器人控制、自动驾驶等场景。 ·系统知识脉络:从数学基础、模型设计到应用扩展,构建“原理—实现—系统—优化”的完整知识体系。 ·面向生产科研:适合希望将扩散模型应用于复杂决策场景的工程师阅读,也能够满足研究者对技术本质与前沿方向的深度探索。
|
| 內容簡介: |
|
本书通过系统化的理论讲解与实战导向的案例分析,帮助读者掌握扩散模型与强化学习的结合应用,探索其针对实际问题的解决方案。书中首先介绍了生成模型的发展史,特别是扩散模型的起源和核心思想,为读者学习后续章节奠定基础;然后深入探讨了扩散模型在构建决策智能体、结合价值函数等方面的应用,还详细讲解了如何利用扩散模型解决轨迹优化和策略优化等问题;接下来探索了扩散模型在多任务泛化和世界模型建模方面的扩展应用,展示了其在复杂环境中的适应性和灵活性;最后讨论了利用强化学习优化扩散模型的新进展,以及扩散模型在决策问题上的前沿研究方向。
|
| 關於作者: |
|
陈云北京大学智能科学与技术专业学士、软件工程硕士,现任阿里巴巴国际数字商业集团智能技术部推荐算法工程师,主要研究方向为生成式人工智能在智能推荐与商业广告中的创新应用。曾于上海人工智能实验室担任研究员,深度参与开源强化学习平台DI-engine的研发与维护,并在生成式策略学习与扩散模型方向持续输出技术博客文章与开源实践项目,目前多项研究成果发表于国际顶级会议及期刊。牛雅哲上海人工智能实验室前沿探索中心研究员,开源决策智能组织OpenDILab(GitHub Star数超2.7万,为国内影响力广泛的决策智能开源组织)负责人。曾在NeurIPS、ICLR、AAAI等机器学习顶级会议上发表多篇论文,在强化学习、分布式系统及大模型训练基建等领域拥有多年研发经验,长期致力于探索机器学习算法与系统设计优化相结合的最佳实践路径。张金欧文上海人工智能实验室AI For Science中心算法工程师,研究方向为生成模型、强化学习、科学智能与工业智能。
|
| 目錄:
|
第 1 章 起源:扩散模型简介 1 11 生成模型的发展史 1 12 扩散模型核心思想介绍 4 121 扩散过程及其逆过程 4 122 扩散模型的训练 7 123 扩散模型的推断 8 124 扩散模型的评价指标 9 125 扩散模型的类型 10 13 条件扩散模型 13 131 分类器引导采样和无分类器引导采样 13 132 ControlNet 15 14 扩散模型加速采样方法 17 141 training-free 加速采样方法 18 142 training-based 加速采样方法24 参考文献27 第 2 章 基石:扩散模型与轨迹优化问题 29 21 离线强化学习 29 22 第 一个基于扩散模型的决策智能体:Plan Diffuser 31 221 以轨迹片段为对象的扩散模型 31 222 Plan Diffuser 的建模与优化 32 223 Plan Diffuser 的特性 39 224 从实验中解析 Plan Diffuser 40 225 灵活的测试目标 42 226 离线强化学习 43 227 扩散模型热启动 44 23 条件生成决策模型的集大成者:Decision Diffuser 45 231 Decision Diffuser 的建模与优化 45 232 回报以外的条件变量 47 24 代码实战 54 241 导入第三方库 54 242 准备数据集 54 243 配置扩散模型 56 244 实例化扩散模型 57 245 训练条件扩散模型 57 246 条件采样 58 参考文献60 第 3 章 基石:扩散模型与价值函数的结合 61 31 强化学习中基于价值函数的策略优化 61 32 Diffusion-QL :高效建模离线数据集中的行为策略 62 33 CEP 和 QGPO :借助能量函数设计新的引导器 64 331 对比能量预测法 65 332 基于 Q 价值函数引导的策略优化 69 34 LDCQ :扩散模型约束下的 Q-learning 77 341 背景知识 78 342 隐空间扩散强化学习 80 343 以目标为条件的隐空间扩散模型 84 344 实验与分析 84 345 局限性与展望 88 参考文献89 第 4 章 基石:扩散模型训练技巧指南 90 41 如何设计去噪网络 90 411 U-Net 90 412 DiT 92 413 文本编码器 98 42 如何设计训练方案 99 421 连续时间扩散模型的训练 99 422 扩散过程的设计与选择 100 423 扩散模型建模目标与训练方式的选择 102 43 如何选择扩散模型的类型 104 44 代码实战 105 参考文献 106 第 5 章 扩展:多任务泛化 108 51 离线元强化学习 108 52 MetaDiffuser 108 521 面向任务的上下文编码器 109 522 条件扩散模型架构 110 523 双引导增强规划器 111 参考文献 112 第 6 章 扩展:世界模型建模 113 61 世界模型简介 113 62 基于 RNN 的世界模型 114 621 论文“World Models” 114 622 DreamerV3 115 63 基于 Transformer 的世界模型 122 631 IRIS 122 632 TWM 124 633 STORM 124 64 基于扩散模型的世界模型 126 641 扩散范式的最佳实践126 642 实验结果 129 参考文献 132 第 7 章 反转:用强化学习来优化扩散模型 133 71 引言 133 72 DDPO :将去噪过程建模为序列决策过程 133 721 将扩散模型建模为多步 MDP 135 722 策略梯度估计 136 723 各种奖励模型下的采样表现 136 73 Diffusion-DPO :运用于扩散模型的直接偏好优化 139 731 从 RLHF 到 DPO 140 732 将 RLHF 用于文本图像对齐 141 733 将 DPO 用于文本图像对齐 142 734 将 DPO 用于扩散模型优化 143 735 文本图像对齐实验 145 736 从强化学习角度推导 Diffusion-DPO 147 74 DRaFT :通过可微分奖励函数直接优化扩散模型 149 741 DRaFT 149 742 DRaFT-K 150 743 DRaFT-LV 151 744 实验结果 151 75 代码实战 152 参考文献 157 第 8 章 扩展:扩散模型在决策问题上的新进展 158 81 基于生成模型的强化学习策略 158 82 决策基模型中的扩散模型 161 821 ViNT 162 822 NoMaD 166 823 SuSIE 170 83 总结与展望 177 参考文献 177
|
|