《大模型轻量化：模型压缩与训练加速》 - 梁志远 - 清华大学出版社 - 香港大書城 - Meg Book Store

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書

『簡體書』大模型轻量化：模型压缩与训练加速

書城自編碼： 4098799
分類：簡體書→大陸圖書→計算機/網絡→操作系統/系統開發
作者：梁志远
國際書號(ISBN)： 9787302686002
出版社：清华大学出版社
出版日期： 2025-04-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 141.9

我要買件

share:

** 我創建的書架 **
未登入.

新書推薦：

数字文化：公共空间、平台与算法

《数字文化：公共空间、平台与算法》
售價：HK$ 108.9

明代一条鞭法（精）--梁方仲著作集

《明代一条鞭法（精）--梁方仲著作集》
售價：HK$ 85.8

自我与本我：弗洛伊德经典心理学著作（精装典藏版）

《自我与本我：弗洛伊德经典心理学著作（精装典藏版）》
售價：HK$ 74.8

消费是什么：关于消费主义的社会学研究（一本书告诉你为什么买买买之后也有巨大空虚感）

《消费是什么：关于消费主义的社会学研究（一本书告诉你为什么买买买之后也有巨大空虚感）》
售價：HK$ 64.9

人类简史系列（白金纪念版）（套装共4册）

《人类简史系列（白金纪念版）（套装共4册）》
售價：HK$ 347.6

深度学习推荐系统2.0

《深度学习推荐系统2.0 》
售價：HK$ 140.8

小欢喜2：南京爱情故事

《小欢喜2：南京爱情故事》
售價：HK$ 75.9

分解工作法：聪明人如何解决复杂问题

《分解工作法：聪明人如何解决复杂问题》
售價：HK$ 65.8

編輯推薦：

在人工智能领域飞速发展的今天，大模型的应用日益广泛，但随之而来的是模型部署与计算资源的严峻挑战。大模型轻量化技术应运而生，成为解决这一难题的关键。《大模型轻量化:模型压缩与训练加速》一书，犹如一盏明灯，为从事大模型开发与优化的工程师以及研究人员照亮了前行的道路。
《大模型轻量化:模型压缩与训练加速》围绕大模型轻量化这一核心主题，展开全面而深入的阐述。第一部分介绍大模型的背景及挑战，讲解Transformer和MoE架构的基本原理，让读者对大模型有清晰的认知。聚焦模型压缩、训练加速与推理优化的核心技术，包括量化、蒸馏和剪枝等，并通过实际案例验证其效果，使读者能深刻理解这些技术的价值。
第二部分详述端侧学习与计算引擎优化策略，突出动态 Batch 和异构执行的工程实现。这部分内容为读者揭示了在大模型轻量化过程中，如何通过优化计算资源利用，提高模型的运行效率。
第三部分针对高性能算子库与手工算子开发，以 cuDNN、NEON、CUDA 等为代表，揭示优化细节。并以国产开源模型 DeepSeek-V3 为案例，展示从训练到推理的综合优化方案。不仅为读者提供了具体的实践指导，也展示了国内在

內容簡介：

《大模型轻量化:模型压缩与训练加速》围绕大模型轻量化这一主题，系统地阐述大模型轻量化的基本理论与实现方法，旨在提升模型的部署效率和计算性能。全书分为3部分，共10章。第1部分（第1～5章），介绍大模型的背景与面临的问题，以及Transformer和MoE架构的基本原理；重点讲解模型压缩、训练加速和推理优化等核心技术，包括量化、蒸馏和剪枝等，并通过实际案例验证其效果。第2部分（第6、7章），重点介绍端侧学习与计算引擎优化策略，尤其是动态Batch和异构执行的工程实现。第3部分（第8～10章），针对高性能算子库与手工算子开发，分别以cuDNN、NEON、CUDA等为代表，揭示算子优化的细节，最后，以国产开源模型DeepSeek-V3为例，展现从训练到推理的综合优化方案。
《大模型轻量化:模型压缩与训练加速》提供全面实用的轻量化方法论，结合丰富代码示例与实践案例，适合从事大模型开发与优化的工程师，也为研究人员提供深入探讨的素材与视角，助力解决大模型训练与推理中的实际问题。

關於作者：

梁志远，博士，毕业于北京航空航天大学。长期从事人工智能、大语言模型的开发，专注于深度学习、自然语言处理、数据分析与智能决策等领域。主持或参与多项科研项目，涵盖模型训练优化、知识蒸馏、自动推理与多模态学习等方向。致力于推动人工智能技术在工业应用、智能交互与数据驱动中的实践与发展。

目錄：

第 1 部分大模型概述与核心优化技术
第 1 章大模型基本概念 3
1.1 大模型的兴起与发展 3
1.1.1 大规模神经网络 4
1.1.2 Transformer编码器－解码器 5
1.1.3 MoE架构 7
1.2 计算资源与性能瓶颈 9
1.2.1 GPU简介 10
1.2.2 TPU简介 12
1.2.3 网络带宽约束与分布式训练 13
1.2.4 大模型的训练时间与计算资源消耗问题 14
1.3 数据与隐私问题 16
1.3.1 急剧增加的数据量 16
1.3.2 数据隐私保护与合规性 19
1.4 模型部署与运维 20
1.4.1 模型部署基本概念 20
1.4.2 云计算与边缘计算 25
1.4.3 端侧部署 29
1.4.4 大模型运行与维护 30
1.5 本章小结 34
1.6 思考题 34
第 2 章模型压缩、训练与推理 36
2.1 模型压缩概述 36
2.1.1 模型压缩简介 36
2.1.2 常见的模型压缩方法分类 37
2.2 训练加速基础 38
2.2.1 数据并行与模型并行 39
2.2.2 混合精度训练 40
2.2.3 分布式训练框架：Horovod 44
2.3 推理加速基础 49
2.3.1 硬件加速与推理引擎 49
2.3.2 低延迟与高吞吐量平衡 55
2.3.3 推理优化实战：批量推理 58
2.4 性能评估指标 62
2.4.1 计算复杂度与性能指标 62
2.4.2 延迟、吞吐量与精度之间的权衡 63
2.4.3 评估工具与基准测试 67
2.5 本章小结 74
2.6 思考题 75
第 3 章模型格式转换 76
3.1 模型格式的定义与转换 76
3.1.1 常见的模型格式：ONNX、TensorFlow的SavedModel 76
3.1.2 模型格式转换实现 81
3.1.3 模型的兼容性问题 86
3.2 跨框架模型转换 90
3.2.1 TensorFlow到PyTorch的模型转换 90
3.2.2 ONNX与TensorFlow、PyTorch的兼容性 93
3.2.3 转换时的精度损失问题 99
3.3 硬件相关的格式转换 105
3.3.1 从PyTorch到TensorRT 106
3.3.2 ONNX模型与NVIDIA TensorRT的兼容性 112
3.3.3 模型格式与硬件加速的关系 113
3.4 模型格式转换的工具与库 114
3.4.1 使用ONNX进行跨平台转换 115
3.4.2 TensorFlow Lite与Edge模型优化 117
3.5 本章小结 122
3.6 思考题 123
第 4 章图优化 124
4.1 算子融合技术 124
4.1.1 算子融合的原理 124
4.1.2 典型算子融合算法的实现 126
4.1.3 实验：算子融合对推理性能的提升 129
4.2 布局转换与优化 133
4.2.1 张量布局的原理 133
4.2.2 内存访问优化与布局选择 135
4.3 算子替换技术 137
4.3.1 用低开销算子替换高开销算子 137
4.3.2 常见的算子替换策略 139
4.4 显存优化 142
4.4.1 显存占用分析与优化 142
4.4.2 梯度检查点与显存共享 145
4.4.3 动态显存分配与内存池管理 148
4.5 本章小结 152
4.6 思考题 152
第 5 章模型压缩 154
5.1 量化 154
5.1.1 定点量化与浮点量化的区别 154
5.1.2 量化算法与工具：TensorFlow Lite 157
5.1.3 量化带来的精度损失问题 160
5.2 知识蒸馏 163
5.2.1 知识蒸馏的基本概念与应用场景 163
5.2.2 知识蒸馏的损失函数与训练过程 164
5.2.3 如何选择蒸馏－教师网络模型 167
5.3 剪枝 169
5.3.1 网络剪枝基本原理 169
5.3.2 基于权重剪枝与结构化剪枝 171
5.3.3 剪枝后的精度恢复方案 177
5.4 二值化与极端压缩 183
5.4.1 二值化网络的构建与训练 183
5.4.2 二值化对计算与存储的影响 186
5.5 本章小结 189
5.6 思考题 189
第 2 部分端侧学习与高效计算引擎优化
第 6 章端侧学习、端侧推理及计算引擎优化 193
6.1 联邦学习概述 193
6.1.1 联邦学习的基本概念与应用 193
6.1.2 联邦学习中的隐私保护机制、通信与聚合算法 194
6.2 数据处理与预处理 197
6.2.1 数据清洗与增广技术 197
6.2.2 数据均衡与过采样策略 199
6.2.3 端侧数据处理的资源限制 201
6.3 Trainer与优化器设计 202
6.3.1 端侧训练的挑战与策略 203
6.3.2 高效优化器（如SGD、Adam）的选择 204
6.3.3 动态调整学习率与训练过程监控 206
6.4 损失函数的设计与选择 209
6.4.1 常见的损失函数与应用场景 209
6.4.2 多任务学习中的损失函数设计 210
6.4.3 损失函数的数值稳定性 213
6.5 Benchmark设计与性能评估 215
6.5.1 经典Benchmark与定制Benchmark 215
6.5.2 推理与训练性能的综合评估 216
6.5.3 性能瓶颈的识别与优化 219
6.6 IR的作用与优化 222
6.6.1 IR的定义及作用 222
6.6.2 IR转换与优化策略 223
6.7 Schema的设计与规范 225
6.7.1 数据格式与模型接口的设计 225
6.7.2 数据流与计算图的规范化 228
6.8 动态Batch与内存调度 231
6.8.1 动态Batch的选择与调整 231
6.8.2 内存调度与性能优化 234
6.8.3 优化内存利用率与减少内存溢出 237
6.9 异构执行与优化 240
6.9.1 GPU与CPU的异构计算模式原理 240
6.9.2 多核心与多节点并行优化 242
6.9.3 异构计算中的任务调度 245
6.10 装箱操作与计算图优化 247
6.10.1 通过装箱减少计算开销 248
6.10.2 装箱优化对计算图的影响 250
6.11 本章小结 256
6.12 思考题 257
第 7 章高性能算子库简介 258
7.1 cuDNN算子库概述 258
7.1.1 cuDNN的主要功能 258
7.1.2 常用算子（卷积、池化等）的实现 259
7.1.3 算子加速实战：cuDNN在深度学习中的应用 262
7.2 MKLDNN算子库概述 265
7.2.1 MKLDNN与Intel硬件的优化 265
7.2.2 MKLDNN中的高效算子实现 266
7.2.3 多核支持与并行计算优化 269
7.3 算子库的选择与性能比较 271
7.3.1 cuDNN与MKLDNN的应用场景对比 271
7.3.2 在不同硬件平台上的表现 272
7.4 算子库的高效利用 275
7.4.1 如何选择合适的算子库 275
7.4.2 优化算子库接口与内存管理 276
7.4.3 算法重构：提高算子性能 278
7.5 本章小结 282
7.6 思考题 283
第 3 部分高性能算子与深度学习框架应用
第 8 章常用高性能算子开发实战 287
8.1 NEON与ARM架构优化 287
8.1.1 NEON指令集与深度学习加速 287
8.1.2 ARM架构上的并行计算优化 289
8.1.3 使用NEON实现卷积等算子加速 291
8.2 CUDA与GPU优化 294
8.2.1 CUDA编程模型与内存管理 295
8.2.2 CUDA流与核函数优化 297
8.2.3 高效利用GPU并行计算资源 300
8.3 Vulkan与图形加速 303
8.3.1 Vulkan的低级控制与优化 304
8.3.2 使用Vulkan进行推理加速 311
8.3.3 图形与计算并行加速的结合 312
8.4 AVX与OpenCL的优化 321
8.4.1 AVX与CPU优化的基本原理 321
8.4.2 OpenCL与跨平台加速 322
8.5 本章小结 327
8.6 思考题 327
第 9 章 TIK、YVM算子原理及其应用 328
9.1 TIK算子库的应用 328
9.1.1 TIK算子库与TensorFlow Lite的集成 328
9.1.2 使用TIK进行卷积与矩阵乘法加速 330
9.2 YVM算子库的应用 332
9.2.1 YVM在深度学习推理中的高效应用 332
9.2.2 YVM的硬件适配与优化 334
9.3 本章小结 346
9.4 思考题 346
第 10 章基于DeepSeek-V3分析大模型训练降本增效技术 347
10.1 DeepSeek-V3架构概述 347
10.1.1 DeepSeek-V3的架构设计与创新 347
10.1.2 模型参数共享与层次结构优化 350
10.2 DeepSeek-V3的训练降本技术分析 354
10.2.1 FP8精度训练、混合精度训练与分布式训练 354
10.2.2 动态计算图 357
10.2.3 自适应批处理与梯度累积技术 359
10.2.4 Sigmoid路由机制 363
10.2.5 无辅助损失负载均衡算法 365
10.2.6 DualPipe算法 370
10.2.7 All-to-All跨节点通信 375
10.3 DeepSeek-V3的推理加速技术 377
10.3.1 量化与蒸馏在DeepSeek-V3中的应用 377
10.3.2 模型压缩与推理速度提升 381
10.4 本章小结 383
10.5 思考题 383

內容試閱：

在人工智能迅猛发展的浪潮中，大规模神经网络模型凭借其卓越性能，已然成为自然语言处理、计算机视觉等诸多领域的核心竞争力。然而，大模型复杂度与资源需求的急剧膨胀，让如何在确保精度的同时，大幅削减计算成本、提升部署效率，成为了产业界与学术界共同瞩目的焦点。
本书的创作灵感，正是源自业界对于大模型轻量化愈发迫切的需求。近年来，Transformer 和 Mixture of Experts（MoE）等前沿架构引领了深度学习的革新潮流，但也带来了对计算资源的巨额消耗。在此背景下，模型压缩技术如量化、剪枝和蒸馏应运而生，为破解资源瓶颈提供了有力武器，而工程优化策略则进一步夯实了其实践基础。本书紧紧围绕这一主题，全面探讨大模型轻量化技术，包括模型压缩、训练与推理加速、端侧学习与计算引擎优化，结合实际案例与工程实现，助力提升大模型的部署效率与计算性能。
本书共分为3部分：
第1部分（第1~5章），主要阐述了大模型轻量化的基本理论。第1章概述了大模型的兴起背景与技术挑战，以Transformer与MoE架构为例，分析其在性能与计算复杂度上的权衡。第2~5章从理论和实践出发，探讨模型压缩的多种技术路径，通过实际案例说明其在提升效率与降低存储需求方面的具体应用。为帮助读者深入理解，书中附有精心设计的代码示例和测试数据，验证模型轻量化的实际效果。
第2部分（第6、7章），基于第1部分的理论沉淀，深入拓展模型轻量化理论，并以代码实践加以诠释。在第6章介绍了端侧学习、计算引擎优化和资源分配等领域的关键技术。端侧学习章节特别关注联邦学习及其在隐私保护中的应用；计算引擎优化部分则涵盖动态Batch和多副本并行调度等核心技术，解析其在实际部署中的工程难点。第7章则重点介绍高性能算子库，为后续算子开发做好准备。
第3部分（第8~10章），重点介绍高性能算子库及手工算子的开发，分别以cuDNN、CUDA、Vulkan等为代表，从理论基础到实际实现层层深入，阐明算子优化的工程细节。算子的优化在大规模训练和推理任务中具有决定性作用。最后，以国产开源力作DeepSeek-V3模型为例，完整呈现从模型训练至推理的轻量化全过程。
本书适合从事大模型开发与优化的工程师和研究人员，尤其是对模型压缩、计算引擎优化和高效部署有需求的读者，旨在为他们提供深入的理论分析与实用的技术实现，帮助其应对大模型应用中的计算瓶颈和资源挑战。
在本书的撰写征程中，承蒙众多同行、专家以及学者的慷慨相助与鼎力扶持，在此向每一位提供宝贵意见与鼓励的朋友致以最崇高的敬意与诚挚的感激。同时，对参与本书内容研讨与案例验证工作的工程师和团队表示由衷的感谢。是他们的不懈努力与智慧交融，使本书实现了理论精华与实践智慧的完美融合，搭建起一座通向大模型轻量化核心技术深处的坚实桥梁。
期望本书能够为广大读者提供有价值的知识与实践指导，帮助大家在大模型领域取得更大的进展。无论您是冲锋在大模型开发一线的工程师，还是深耕于学术研究领域的学者，都希望本书能够成为您成长与突破的得力助手，助您在AI技术的快速发展中不断探索与创新。
本书提供配套源码，读者用微信扫描下面的二维码即可获取。
如果读者在学习本书的过程中遇到问题，可以发送邮件至booksaga@126.com，邮件主题为 “大模型轻量化：模型压缩与训练加速”。

著者
2025年1月

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.