新書推薦:

《
国画牡丹 La Magnifique pivoine
》
售價:HK$
35.2

《
20世纪物理学(第1卷)
》
售價:HK$
184.8

《
虚无主义与形而上学
》
售價:HK$
107.8

《
重掌失控人生(第2版):注意缺陷多动障碍成人自救手册
》
售價:HK$
96.8

《
日本产业新趋势研究
》
售價:HK$
165.0

《
占之必扐:清华简《筮法》与早期易学研究论集
》
售價:HK$
96.8

《
顺境逆境,不过心境
》
售價:HK$
61.6

《
经济与社会(第1卷)
》
售價:HK$
118.8
|
| 編輯推薦: |
|
详细讲解如何设计、搭建和应用大模型的全流程,所有章节配备同步教学视频,所有代码采用PyTorch框架编写。配套教学课件、教学大纲、习题答案、源代码等丰富的教学资源。
|
| 內容簡介: |
|
本书聚焦大模型开发全流程,从Transformer到GPT,深度解构大模型的技术核心,从0到1重构复现大模型,直击智能体开发与RAG知识库开发前沿,全书通过代码级实践揭示大模型的技术原理与奥秘,铺就一条从“理解原理”到“亲手缔造”的进阶之路。书中详解Ollama本地部署、FastAPI服务器及云端API调用,覆盖Qwen、DeepSeek等主流模型部署方案。实战智能体开发,基于大模型API与LangChain框架,实现工具调用、增强检索、并行工作流;基于多重融合查询、任务分解、假想文档嵌入等实现RAG知识库构建;解读DeepSeek模型的技术演进路径,剖析多头潜在注意力、DeepSeekMoE架构、多Token预测、GRPO等前沿创新设计。本书所有章节配备同步教学视频,所有代码采用PyTorch框架编写,在无GPU的情况下,仅需16GB内存即可正确运行。本书可作为本科院校和高职院校人工智能专业的学习教材,也可作为创新创业、实训实习、大模型微专业和毕业设计的参考教材,适合社会各界工程人员学习参考。
|
| 關於作者: |
|
董相志,鲁东大学鲁东大学信息与电气工程学院副教授,近年来承担了网络工程专业、软件工程专业、计算机科学与技术专业和电子信息工程专业的十四门专业课程的教学任务,以及大数据与人工智能的全校公选课。主讲课程为人工智能、网络编程、移动应用开发等。担任了两门研究生课程的教学任务。一门是生物信息学,一门是强化学习。2023年10月获工信部人工智能优秀讲师资格证书,2023年10月获华为人工智能讲师资格证书。以第一作者在清华大学出版社出版教材6部。主要教学研究方向为大数据处理与分析、人工智能、智能网联、移动应用开发等。张兴晓,鲁东大学生命科学学院院长,教授。致力于科教融汇、产教融合协同育人培养模式及课程体系改革创新与实践,主持“山东省教育服务新旧动能转换专业对接产业专业群建设”、“山东省生物制药本科专业建设”、“生物与医药学科专业群建设”等3项山东省专业建设项目。兼中国畜牧兽医学会动物福利与健康养殖学会常务理事、山东省微生物学会理事,山东省制药工程学会专业委员会委员、山东省免疫学会兽医专业委员会委员。主要承担生物科学专业、生物制药专业、生物工程专业的专业核心课程教学任务,主讲课程为《微生物学》、《药学概论》、《生物信息学》等。专业课程教学过程中,注重学科交叉专业融合,运用互联网、大数据、人工智能等现代信息技术改造传统课程授课模式,打造特色方向。主编教材4部,副主编或参编教材5部。
|
| 目錄:
|
目录
CONTENTS
第1章 Transformer—晴空一鹤排云上 / 1
1.1 词嵌入向量 / 2
1.2 位置编码 / 6
1.3 Q、K、V矩阵 / 10
1.4 自注意力 / 11
1.5 交叉注意力 / 14
1.6 掩码注意力 / 16
1.7 多头注意力 / 18
1.8 层标准化 / 23
1.9 前馈网络 / 25
1.10 Transformer编码器定义 / 27
1.11 Transformer解码器定义 / 30
1.12 Transformer模型定义 / 33
1.13 模型训练参数配置文件 / 40
1.14 中英文翻译数据集处理 / 42
1.15 Transformer模型训练 / 49
1.16 Transformer模型评估 / 58
1.17 Transformer模型测试 / 60
1.18 Transformer演进为大模型 / 64
本章小结 / 66
习题1 / 66
第2章 GPT—便引诗情到碧霄 / 67
2.1 生成式预训练 / 68
2.1.1 预训练数据集 / 68
2.1.2 词典与分词 / 70
2.1.3 划分数据集 / 74
2.1.4 随机加载数据 / 76
2.1.5 GPT输入与输出 / 77
2.1.6 增加位置编码层 / 81
2.1.7 多头自注意力层 / 86
2.1.8 增加前馈网络层 / 88
2.1.9 增加解码器层 / 88
2.1.10 GPT模型的完整定义 / 89
2.1.11 GPT模型的训练 / 91
2.1.12 GPT模型的验证与评估 / 95
2.1.13 GPT模型的保存与加载 / 96
2.2 大模型微调 / 98
2.2.1 微调任务数据集 / 98
2.2.2 LoRA微调方法 / 103
2.2.3 LoRA微调大模型 / 104
2.2.4 GPT微调模型训练 / 110
2.2.5 微调衔接强化学习 / 114
2.3 人类反馈的强化学习 / 115
2.3.1 大模型的强化学习 / 115
2.3.2 收集反馈数据 / 117
2.3.3 构建奖励模型 / 120
2.3.4 用PPO优化大模型 / 122
2.3.5 用DPO优化大模型 / 126
本章小结 / 129
习题2 / 129
第3章 大模型的部署与调用—直挂云帆济沧海 / 130
3.1 Ollama本地部署模式 / 130
3.1.1 Ollama的安装与配置 / 131
3.1.2 Qwen2.5-0.5B大模型 / 132
3.1.3 Ollama HTTP服务接口 / 134
3.1.4 DeepSeek-R1-1.5B大模型 / 135
3.1.5 Open WebUI交互界面 / 136
3.2 FastAPI服务器的部署模式 / 137
3.2.1 FastAPI大模型服务 / 137
3.2.2 Streamlit交互界面 / 139
3.2.3 Gradio交互界面 / 143
3.3 调用云端大模型API / 147
3.3.1 硅基流动大模型云平台 / 147
3.3.2 DeepSeek-V3-671B大模型 / 147
3.3.3 通义千问Qwen2.5-7B大模型 / 150
本章小结 / 151
习题3 / 152
第4章 用大模型API开发智能体—心有灵犀一点通 / 153
4.1 智能体源于大模型 / 153
4.2 智能体基础工作流 / 155
4.3 大模型选型与调用 / 158
4.4 大模型结构化输出 / 159
4.5 智能体工具与调用 / 162
4.6 智能体之增强检索 / 168
4.7 智能体提示链工作流 / 172
4.8 智能体路由工作流 / 177
4.9 智能体并行工作流 / 184
4.10 智能体主控协作流 / 191
本章小结 / 202
习题4 / 203
第5章 用LangChain开发智能体—天工人巧日争新 / 204
5.1 LangChain系统框架 / 204
5.2 LangChain聊天智能体 / 209
5.3 LangChain提示词模板 / 215
5.4 LangChain链式结构原理 / 217
5.5 LangChain延伸链 / 219
5.6 LangChain并行链 / 221
5.7 LangChain分支链 / 222
5.8 LangChain思维链智能体 / 226
本章小结 / 229
习题5 / 230
第6章 用LangChain开发RAG知识库—九层台起垒土末 / 231
6.1 RAG基本框架 / 231
6.2 RAG向量知识库 / 233
6.3 检索与知识生成 / 238
6.4 多重查询 / 241
6.5 多重融合查询 / 245
6.6 任务分解 / 251
6.7 后退提示 / 258
6.8 假想文档嵌入 / 262
本章小结 / 268
习题6 / 269
第7章 DeepSeek—大风起兮云飞扬 / 270
7.1 DeepSeek-V2 / 270
7.1.1 基本参数与性能 / 270
7.1.2 模型结构与创新 / 272
7.1.3 多头潜在注意力 / 273
7.1.4 旋转位置编码 / 275
7.1.5 DeepSeekMoE / 275
7.1.6 DeepSeek LLM / 276
7.1.7 模型参数与训练策略 / 277
7.1.8 模型微调与强化学习 / 278
7.2 DeepSeek-V3 / 280
7.2.1 模型结构与创新 / 280
7.2.2 改进的DeepSeekMoE / 281
7.2.3 多Token预测 / 282
7.2.4 模型训练策略 / 283
7.2.5 模型微调与强化学习 / 284
7.3 DeepSeek-R1 / 285
7.3.1 DeepSeek模型变体与参数 / 285
7.3.2 DeepSeek-R1-Zero的强化学习 / 286
7.3.3 DeepSeek-R1的强化学习 / 289
7.3.4 DeepSeek-R1的蒸馏模型 / 290
本章小结 / 291
习题7 / 292
|
| 內容試閱:
|
前言
PREFACE
人工智能的浪潮正以前所未有的速度重塑世界,大模型作为这场革命的核心引擎,已成为撬动技术与产业边界的支点。
本书是一部从理论到实践、从代码到产业的大模型全景式学习指南。大道至简,实干为要。说一千遍不如做一遍,本书强调一个“做”字。读书是学习,使用是更重要的学习。常常不是先学好了再干,而是干起来再学习,干就是学习。学习大模型、理解大模型、变革大模型、创新大模型,关键要从“做”大模型开始。
本书适合选作人工智能专业的学习教材,助力读者在大模型缔造、智能体开发和RAG知识库开发等领域实现从0到1的突破。
本书共分7章。作者录制了介绍本书内容的视频,读者可扫描右侧二维码观看。第1、2章聚焦如何做大模型。第1章对Transformer的核心组件庖丁解牛;第2章对GPT预训练、微调及人类反馈强化学习逐层剖析,以代码级精度还原了大模型的打造过程。无论是层标准化中的数学逻辑,还是LoRA微调中的参数冻结策略,均以清晰的代码片段呈现,让读者不仅“知其然”,更能“做其然”。
第3章详解Ollama本地部署、FastAPI服务器API开发及云端API调用,将百亿参数模型转换为可运行的行业级服务。
第4、5章聚焦智能体开发,结合LangChain框架掌握智能体的检索增强、并行路由、多工具协作等基础工作流。
第6章基于多重融合查询、任务分解、假想文档嵌入等建构RAG知识库。其间以DeepSeek、Qwen等明星模型为案例,展示如何通过提示链工程与强化学习优化,让大模型在真实场景中释放产业应用价值。
第7章对DeepSeek-V2/V3/R1系列的创新设计(如多头潜在注意力、DeepSeekMoE架构、多Token预测、纯强化学习、模型蒸馏、工程优化等)进行系统解读,揭示顶尖模型背后的技术密码。
从零开始建构大模型→大模型部署与调用→大模型智能体与RAG开发→DeepSeek前沿创新,本书沿着这一路径,通过实践并体验大模型的技术魅力,洞见大模型的跃迁与进化。
翻开本书,您将收获:
一把解锁Transformer与GPT奥秘的钥匙。从词嵌入到位置编码,从注意力机制到解码器堆叠,掌握大模型赖以生存的“第一性原理”。
一套工业级落地的工具箱。通过Ollama、FastAPI、LangChain等框架,快速搭建支持高并发、可扩展的大模型服务,快速入门大模型智能体开发与大模型RAG知识库系统开发。
一场与顶尖技术的深度对话。深入Transformer、GPT、RLHF、LoRA、MoE、MLA、MTP、GRPO等前沿领域,理解如何通过人类反馈与参数高效微调,让模型更安全、更可控、更适配业务需求。
一份面向未来的竞争力地图。从代码实践到论文精读,从模型调优到产品设计,构建“理论+技术+工程”三位一体的AI认知体系。
本书有幸得到了清华大学出版社黄芝主任的精心指导,有幸得到了编辑、校对老师的严谨编校,在此表示诚挚谢意!
在这个大模型定义生产力的时代,技术迭代的速度日新月异,突飞猛进。无论是希望夯实基础的算法工程师,还是渴望转型AI的传统开发者;无论是致力于大模型产业变革的引领者,还是探索技术边界的研究者,本书都将成为您攀登“AI珠峰”的坚强助力。
现在,让我们从一行代码、一个公式、一次注意力计算开始,共同踏上这场激动人心的智能进化之旅,拥抱世界之变,勇立世界之巅!星辰大海,就此启航!
编者
2025年10月
|
|