新書推薦:

《
投资的心法:从传统文化视角看清投资中的规律
》
售價:HK$
75.9

《
如何使孩子爱上阅读:家长和教师能做些什么(基于科学原理,培养孩子阅读水平与内在动机)
》
售價:HK$
54.9

《
博物馆学辞典 博物馆学核心工具书,权威专家联合编纂,理论与实践的指南!
》
售價:HK$
270.6

《
战时的博弈:教宗庇护十二世、墨索里尼与希特勒的秘史(理想国译丛075)
》
售價:HK$
162.8

《
明亡清兴:1618—1662年的战争、外交与博弈
》
售價:HK$
74.8

《
北大版康德三大批判
》
售價:HK$
308.0

《
建安 统一北方之战(201—207)
》
售價:HK$
53.9

《
什么是权力(一本讲透权力逻辑的政治学入门佳作,一次从学术到生活的认知升级)
》
售價:HK$
66.0
|
| 內容簡介: |
|
本书系统构建了深度学习理论与应用的全栈知识体系,从数学基础与机器学习核心原理出 发,贯通线性代数、概率统计等关键数学工具,夯实算法研发的理论根基。面向新一代通用图 形处理器(GPGPU)硬件架构,深入解析专用编程语言的语法设计与高效编程实践,剖析主流 训练与推理框架的底层机制,并结合壁仞科技GPGPU平台,提供针对性的适配与性能优化方案。 通过计算机视觉与自然语言处理领域的经典案例,展示传统算法在异构计算架构下的性能跃 迁。聚焦大模型技术前沿,系统阐述大语言模型(LLM)、视觉语言模型(VLM)及混合专家模 型(MoE)的架构演进,结合DeepSeek-V3、Mixtral 8×7B等代表性模型在壁仞GPGPU上的优化 实践,揭示硬件加速对千亿参数模型训练与推理的显著增益。进一步拓展至人工智能(AI)与 科学计算融合前沿,通过物理信息神经网络、量子系统模拟、微分方程求解等跨学科应用,展 现GPGPU在高性能计算中的核心优势。 全书融合理论推导与工程实践,既涵盖算法原理的严谨分析,又提供可复现的芯片级优化 指南,为AI工程师与研究人员提供从模型设计到硬件加速的端到端技术路径。
|
| 關於作者: |
|
洪洲先生,拥有北京大学数学学士学位,并分别获得了清华大学管理硕士学位与纽约州立大学水牛城分校数学及计算机科学硕士学位。他是壁仞科技联合创始人及CTO。他拥有近30年GPU架构设计经验,在GPU架构设计、渲染算法、光线跟踪算法、并行计算、GPGPU、X86和ARM SOC的架构设计等方面持有50多项已获得批准的专利,包括图形纹理的国际标准DXT纹理压缩算法和分层Z缓存等核心专利。他曾任海思自研GPU的负责人与主架构师,组建了完整的GPU团队并成功流片了全球领先且拥有自主IP的GPU芯片;他还曾在NVIDIA、S3、兆芯等多家顶尖芯片企业领导并管理GPU研发项目。张尉东博士,壁仞科技系统架构师。毕业于北京大学计算机系,曾任职于国内外多家研究机构、云服务器厂商和芯片设计公司,先后担任研发工程师、架构师、技术专家和研究员。长期从事高性能AI服务器在云计算服务上的搭建与系统级优化,以及AI大算力芯片上的软件栈与大模型适配。具备从芯片设计到整机集成,再到云计算服务,最终到大模型应用的端到端软硬结合的系统级优化经验,对大模型在国产芯片上的适配具备深入洞察和独特观点。吴超博士,浙江大学长聘副教授,博士生导师,人工智能协同创新中心研究员,计算社会科学研究中心主任,伦敦帝国理工学院计算机系荣誉研究员。研究方向为联邦学习和分布式建模、数据隐私保护和数据定价、计算社会科学等。主持包括国家自然科学基金重点类项目在内的多个科研项目。Galaxy Learning等开源项目的发起者,Mo人工智能教育平台的创始人。
|
| 目錄:
|
第 1 章 数学与机器学习基础 / 1 1.1 线性代数 / 1 1.1.1 标量、向量、矩阵与张量 / 1 1.1.2 向量与矩阵的基本性质和运算 / 2 1.1.3 链式法则 / 7 1.2 概率论与数理统计 / 11 1.2.1 概率与常用分布 / 11 1.2.2 抽样方法 / 15 1.2.3 参数估计 / 18 1.3 数值最优化方法 / 19 1.3.1 最优化问题 / 19 1.3.2 梯度下降法与牛顿型方法 / 21 1.4 统计学习方法 / 25 1.4.1 多层感知机 / 25 1.4.2 决策树 / 25 1.4.3 贝叶斯分类器 / 28 1.4.4 支持向量机 / 30 1.4.5 集成算法 / 34 1.4.6 隐马尔可夫模型 / 36 1.5 深度学习方法 / 37 1.5.1 人工神经网络 / 37 1.5.2 卷积神经网络 / 38 1.5.3 神经架构搜索 / 44 参考文献 / 45VIII GPGPU 深度学习与大语言模型实战 第 2 章 BIRENSUPA 编程模型 / 46 2.1 从 CPU 到 GPU / 46 2.1.1 CPU / 46 2.1.2 GPU / 46 2.1.3 GPGPU / 47 2.1.4 GPU 与 CPU 工作原理的区别 / 47 2.2 BIRENSUPA 概述 / 48 2.2.1 BRCC / 49 2.2.2 BRCC 编译示例 / 50 2.3 硬件平台抽象 / 53 2.4 核函数 / 54 2.5 超大核函数 / 55 2.5.1 共享内存差异 / 57 2.5.2 线程同步方式差异 / 58 2.6 线程层次结构 / 58 2.6.1 线程块与线程网格 / 58 2.6.2 线程层次映射函数 / 59 2.7 内存层次结构 / 61 2.8 异构编程 / 63 2.9 基本存储系统 / 64 2.9.1 统一虚拟寻址 / 65 2.9.2 分配设备内存 / 65 2.9.3 分配主机内存 / 66 2.9.4 内存拷贝 / 67 2.10 UMA 和 NUMA 存储类型 / 68 2.10.1 内存布局 / 68 2.10.2 不同 UMA 架构类型 / 69 2.10.3 UMA 多设备存储 / 70 2.10.4 NUMA 内存 API / 70 2.11 张量模式 / 72 2.11.1 张量类型 / 72 2.11.2 张量主机端函数 / 75 2.11.3 张量设备端函数 / 76 2.12 流和事件编程 / 77 2.12.1 创建和销毁流 / 77 2.12.2 默认流 / 79 2.12.3 事件 / 79 2.12.4 流中的显式同步 / 80 2.12.5 流中的隐式同步 / 81 2.12.6 流中的主机函数回调 / 81 2.12.7 流的优先级 / 82 2.12.8 流和事件的约束 / 82 2.12.9 改变流的 SPC 掩码 / 82 2.13 BIRENSUPA 任务图 / 84 2.13.1 任务图节点类型 / 84 2.13.2 使用节点 API 创建任务图 / 85 2.14 协作组 / 87 2.14.1 基本线程组同步和线程束级数据交换 / 87 2.14.2 用户自定义线程组 / 88 2.14.3 线程块组 / 88 2.14.4 分块(线程束和子线程束)组 / 88 2.14.5 合并组 / 89 2.14.6 线程网格组 / 89 2.15 多 GPU 编程 / 89 2.15.1 壁仞多设备拓扑结构 / 90 2.15.2 多设备编程基础 / 92 第 3 章 深度学习框架 / 95 3.1 训练框架 BR_PyTorch / 95 3.1.1 PyTorch 训练流程简介 / 96 3.1.2 壁仞 PyTorch 插件 / 98 3.1.3 快速使用 BR_PyTorch / 99 3.1.4 BR_PyTorch 性能分析工具 / 102 3.1.5 BR_PyTorch 分布式训练 / 103 3.2 分布式训练框架 Megatron-LM / 108 3.2.1 Megatron-LM 简介 / 108 3.2.2 分布式训练策略 / 109 3.2.3 壁仞 Megatron-LM 插件 / 112 3.3 推理框架 suInfer-LLM / 113 3.3.1 大语言模型推理介绍 / 113 3.3.2 suInfer-LLM 简介 / 116 3.3.3 suInfer-LLM 架构及使用方法 / 117 3.4 推理框架 / 118 3.4.1 vLLM 介绍 / 118 3.4.2 核心技术和原理 / 119 3.4.3 性能表现 / 120 3.4.4 适配原理 / 121 3.4.5 使用方法 / 121 参考文献 / 124 第 4 章 传统计算机视觉与自然语言处理 / 125 4.1 图像分类 / 125 4.1.1 背景介绍 / 125 4.1.2 基于传统方法的图像分类 / 126 4.1.3 基于深度学习的图像分类 / 137 4.1.4 图像分类子任务 / 147 4.1.5 E cientNetV2 模型训练 / 149 4.2 目标检测 / 156 4.2.1 背景介绍 / 156 4.2.2 基于手工特征的目标检测 / 167 4.2.3 基于深度学习的目标检测 / 168 4.2.4 目标检测中的难点及最新进展 / 175 4.2.5 目标检测的挑战 / 182 4.2.6 YOLOv8 模型训练 / 184 4.3 自然语言处理 / 189 4.3.1 背景介绍 / 189 4.3.2 研究内容 / 190 4.3.3 自然语言处理的基本范式 / 192 4.3.4 分词和词嵌入 / 196 4.3.5 循环神经网络和其他序列模型 / 197 4.3.6 BERT 模型训练 / 201 参考文献 / 204 第 5 章 大语言模型 / 218 5.1 LLM 发展历程 / 218 5.2 扩展定律简介 / 219 5.3 LLM 构建 / 221 5.3.1 LLM 结构 / 221 5.3.2 LLM 组件 / 223 5.4 LLM 训练 / 240 5.4.1 训练数据集 / 240 5.4.2 模型概述及组网 / 240 5.4.3 模型训练 / 252 5.4.4 精度数据分析 / 261 5.5 LLM 推理 / 261 5.5.1 环境配置 / 261 5.5.2 模型准备 / 262 5.5.3 模型导出 / 263 5.5.4 模型推理 / 264 参考文献 / 270 第 6 章 视觉语言模型 / 271 6.1 ViT 技术介绍 / 272 6.1.1 图像嵌入 / 273 6.1.2 Transformer 模型 / 273 6.2 对比学习与跨模态理解 / 274 6.2.1 CLIP 训练和推理 / 274 6.2.2 CLIP 优缺点 / 275 6.3 LLaVA / 276 6.3.1 训练数据集 / 277 6.3.2 模型结构 / 277 6.3.3 训练方法 / 278 6.3.4 LLaVA-1.5 / 279 6.4 VLM 训练 / 280 6.4.1 微调数据集 / 280 6.4.2 模型结构及组网 / 280 6.4.3 训练集群及分布式策略 / 284 6.4.4 启动命令及输出日志 / 284 参考文献 / 287 第 7 章 混合专家模型 / 289 7.1 MoE 发展简介 / 290 7.2 MoE 训练优化 / 293 7.2.1 词元负载均衡 / 293 7.2.2 专家并行化 / 294 7.3 DeepSeek-V3 / 296 7.3.1 模型结构 / 296 7.3.2 基础设施及框架 / 298 7.4 MoE 训练 / 301 7.4.1 训练数据集 / 301 7.4.2 模型概述及组网 / 301 7.4.3 训练 / 303 参考文献 / 306 第 8 章 科学计算与 AI / 308 8.1 物理导引神经网络模型 / 308 8.1.1 背景介绍 / 310 8.1.2 伯格斯方程 / 311 8.1.3 PyTorch 自动微分求解伯格斯方程 / 312 8.1.4 BIRENSUPA 反向求解伯格斯方程 / 316 8.1.5 流体自由面模拟 / 321 8.2 量子计算电路模拟器 / 323 8.2.1 量子计算背景 / 324 8.2.2 经典量子混合算法 / 326 8.2.3 适配量子 AI 计算软件框架 / 327 8.3 有限差分法求解微分方程 / 333 8.3.1 热传导问题:二维笛卡儿坐标系扩散方程 / 333 8.3.2 热传导问题的有限差分法求解 / 334 8.3.3 使用壁仞 GPGPU 的热传导方程有限差分法求解 / 335 参考文献 / 339 附录 缩略语表 / 341
|
|