新書推薦:

《
埃及大历史:“笔与剑奖”获得者伯纳德·卢甘力作,俯瞰神秘王朝的权力角逐
》
售價:HK$
64.9

《
意大利马克思主义史
》
售價:HK$
173.8

《
DK历史百科(典藏版)(全彩)
》
售價:HK$
118.8

《
万有引力书系 奥斯曼的宦官:从非洲奴隶到权力掮客
》
售價:HK$
107.8

《
祛魅:你以为的真是你以为的吗?(深度剖析看穿事物本质,祛魅让你更真实地看待世界和自己)
》
售價:HK$
63.8

《
视阈与阐释: 清代题跋中的书法批评观念嬗变
》
售價:HK$
97.9

《
工业机器人系统综合设计
》
售價:HK$
46.2

《
两宋烽烟录:第三卷 十二世纪宋金和战实录
》
售價:HK$
107.8
|
編輯推薦: |
?从零开始:基础理论介绍和智能对话开源框架使用讲解,入门门槛低,易于初学者实战上手。
?内容全面:内容涉及FAQ问答、知识图谱问答、任务型问答和表格型问答等主要智能对话类型,也涵盖这些智能对话类型企业级的综合应用实例讲解。
?内容新颖:既有深度学习前沿算法介绍,也有强化学习智能对话相关算法及代码讲解。
?经验总结:全面归纳和整理作者多年的智能对话实践经验。
?内容实用:结合大量源代码和开源框架实例进行讲解,能迅速搭建自己的智能对话系统。
?通俗易懂:理论深入浅出,每章均可单独阅读,可作为床头书随时查阅。
|
內容簡介: |
《DeepSeek源码深度解析》是一本系统讲解DeepSeek源码及其核心实现原理的技术指南,内容覆盖了从基础概念到高级应用的全流
來源:香港大書城megBookStore,http://www.megbook.com.hk 程知识。全书共7章,结构层层递进。第1章对DeepSeek进行了全面概述,帮助读者构建对DeepSeek系统的整体认
知。第2章聚焦于环境搭建、代码获取与模型部署接入,为后续深入研究提供基础。第3章深入探讨了MoE(混合
专家模型)的基本原理、功能模块与优化技术。第4章详细解析了DeepSeek-V3模型的架构知识,并通过测试验证
展示了系统的实际效果。第5章围绕统一多模态大模型展开,介绍了Janus系列架构、核心技术及工具模块。第6章
针对高分辨率图像场景,探讨了结合MoE、细粒度特征提取与视觉/语言适配器的多模态模型的知识。第7章聚焦
DeepSeek-R1推理大模型,展示了DeepSeek在推理性能与自我进化方面的前沿探索。
《DeepSeek源码深度解析》适合人工智能工程师、深度学习研究者、AI产品开发人员及高校师生阅读。无论您是希望夯实开源模型基础,
还是寻找前沿实战案例,《DeepSeek源码深度解析》都将为您提供全面而深入的参考与指导。
|
關於作者: |
薛栋
----------------------------
薛栋,华东理工大学信息科学与技术学院副教授/硕士生导师,德国慕尼黑工业大学工学博士,“上海市高层次青年人才计划”、“浦江人才计划”获得者。先后在荷兰格罗宁根大学(RUG)、德国卡尔斯鲁厄理工大学(KIT)从事教师和研究员工作。长期从事基于人工智能与大数据相关研究,包括自然语言处理与大语言模型、工业互联网与工业软件、复杂网络与多智能体系统等课题。以第一作者或通讯作者在IEEE TAC、IEEE TSP、IEEE TNSE等国际高级期刊上发表SCI论文30余篇,主持和参与完成多项包括国家自然科学基金面上项目、上海市人才计划项目、企业科研攻关项目等在内的课题。主讲课程包括本科必修课《人工智能数学基础》和研究生课程《自主无人系统》以及《工业互联网关键技术》。
黄捷
----------------------------
黄捷:福州大学电气工程与自动化学院教授、博士生导师,福建省闽江学者奖励计划特聘教授、福建省高校杰出青年科研人才、福建省引进高层次人才、福州大学旗山学者、福建省闽江科学传播学者,研究方向涵盖多智能体系统协同控制与决策、工业互联网基础理论与关键技术等。现担任福建省自动化学会副会长、福州大学5G 工业互联网研究院院长等职务。
|
目錄:
|
第1章DeepSeek概述?
1.1 DeepSeek简介2
1.1.1 DeepSeek介绍2
1.1.2 DeepSeek的背景与目标2
1.1.3 DeepSeek的产品3
1.1.4 DeepSeek的应用场景5
1.1.5 DeepSeek的核心功能6
1.2 DeepSeek的架构概览7
1.2.1 DeepSeek的整体架构设计8
1.2.2 DeepSeek的模块划分8
1.2.3 DeepSeek与其他模型的技术对比9
第2章环境搭建、代码获取与模型部署接入
2.1 环境准备14
2.1.1 硬件环境要求14
2.1.2 软件环境配置15
2.2 源码获取与管理16
2.2.1 开源项目简介16
2.2.2 获取源码18
2.2.3 代码分支管理19
2.2.4 代码更新与同步20
2.3 DeepSeek模型的本地部署与接入21
2.3.1 安装Ollama 21
2.3.2 部署DeepSeek模型22
2.3.3 Chatbox部署可视化23
2.3.4 DeepSeek接入整合25
第3章混合专家模型(MoE)初探?
3.1 项目介绍28
3.1.1 基本特点28
3.1.2 开源内容29
3.2 功能模块303.3 ZeRO配置30
3.3.1 ZeRO优化器介绍30
3.3.2 第2阶段优化配置31
3.3.3 第3阶段优化配置32
3.3.4 优化总结34
3.4 模型微调34
3.4.1 微调原理34
3.4.2 生成提示文本35
3.4.3 配置模型微调参数36
3.4.4 设置训练数据37
3.4.5 配置超参数37
3.4.6 保存模型38
3.4.7 获取最新检查点39
3.4.8 安全保存模型39
3.4.9 分词处理40
3.4.10 文本预处理40
3.4.11 数据收集器41
3.4.12 训练数据的分词和预处理42
3.4.13 构建和配置模型42
3.4.14 训练模型44
3.4.15 微调模型47
3.5 调用模型48
3.5.1 下载模型48
3.5.2 调用模型50
第4章基于DeepSeekMoE架构的DeepSeek-V3
4.1 项目介绍54
4.1.1 核心特点54
4.1.2 训练流程54
4.1.3 与DeepSeekMoE项目的区别56
4.2 开源信息介绍57
4.3 模型权重58
4.3.1 权重结构58
4.3.2 加载规则59
4.3.3 FP8权重60
4.4 超参数配置61
4.4.1 小规模版本(16B)的配置61
4.4.2 中规模版本(236B)的配置63
4.4.3 大规模版本(671B)的配置64
4.5 模型架构64
4.5.1 DeepSeek-V3模型架构介绍65
4.5.2 配置信息66
4.5.3 并行嵌入68
4.5.4 线性变换69
4.5.5 线性层70
4.5.6 RMSNorm(均方根层归一化)73
4.5.7 RoPE计算74
4.5.8 多头注意力层77
4.5.9 多层感知器80
4.5.10 DeepSeek-V3中的MoE架构实现81
4.5.11 Transformer模型86
4.5.12 验证和测试88
4.6 量化计算88
4.6.1 输入张量进行量化处理89
4.6.2 块级量化处理89
4.6.3 权重矩阵的反量化90
4.6.4 对激活值和权重的量化与反量化91
4.6.5 调优参数92
4.6.6 FP8矩阵乘法内核92
4.6.7 FP8矩阵乘法实现94
4.7 权重转换95
4.7.1 权重格式转换95
4.7.2 权重精度转换98
4.7.3 不同硬件平台的转换101
4.8 测试模型102
4.8.1 模型加载与文本生成102
4.8.2 测试功能106
4.9 DeepSeek-V3模型总结108
第5章统一多模态大模型?
5.1 项目介绍112
5.2 架构原理与核心技术112
5.2.1 Janus架构113
5.2.2 Janus-Pro架构114
5.2.3 JanusFlow架构116
5.2.4 核心技术对比117
5.3 开源信息介绍118
5.4 工具模块119
5.4.1 对话管理120
5.4.2 数据加载129
5.5 构建多模态模型131
5.5.1 向量量化模型131
5.5.2 CLIP视觉编码器146
5.5.3 投影器148
5.5.4 Vision Transformer视觉模型150
5.5.5 图像处理器167
5.5.6 多模态因果语言模型171
5.5.7 多模态处理器177
5.6 JanusFlow模型架构185
5.6.1 多模态模型185
5.6.2 数据预处理189
5.6.3 U-ViT模型190
5.7 模型推理212
5.7.1 多模态推理测试212
5.7.2 文生图推理213
5.7.3 交互式文生图推理216
5.8 Web交互测试219
5.8.1 FastAPI测试219
5.8.2 Gradio交互222
第6章适用于高分辨率图像的多模态模型
6.1 项目介绍228
6.1.1 模型架构228
6.1.2 技术创新与亮点230
6.1.3 模型训练231
6.1.4 对比Janus项目232
6.2 开源模型233
6.3 开源信息介绍234
6.4 配置文件235
6.5 模型架构237
6.5.1 模型配置237
6.5.2 多模态模型架构242
6.5.3 数据处理259
6.5.4 DeepSeek模型架构276
6.5.5 Vision Transformer(ViT)的视觉模型328
6.5.6 对话模板和历史记录管理349
6.5.7 DeepSeek-VL2模型总结356
6.6 模型部署和在线服务359
6.6.1 设置部署参数359
6.6.2 工具函数362
6.6.3 Gradio工具373
6.6.4 模板覆盖与扩展376
6.6.5 Web前端378
6.6.6 模型推理380
6.7 图文对话推理384
6.8 Web测试387
6.8.1 Web前端实现387
6.8.2 启动Web测试402
第7章DeepSeek-R1推理大模型?
7.1 背景介绍406
7.2 项目介绍406
7.2.1 模型演进406
7.2.2 训练方案407
7.2.3 蒸馏小型模型408
7.2.4 开源信息介绍409
7.2.5 结论410
7.3 DeepSeek-R1-Zero训练方案411
7.3.1 强化学习算法411
7.3.2 奖励建模412
7.3.3 训练模板412
7.3.4 DeepSeek-R1-Zero的性能413
7.3.5 DeepSeek-R1-Zero的自我进化过程413
7.3.6 在DeepSeek-R1-Zero的“顿悟时刻”415
7.4 DeepSeek-R1训练方案416
7.4.1 冷启动416
7.4.2 推理导向的强化学习417
7.4.3 拒绝采样和监督微调417
7.4.4 全场景强化学习418
7.5 蒸馏处理419
7.5.1 基础模型的选择与蒸馏过程419
7.5.2 模型蒸馏的技术原理420
|
內容試閱:
|
这个技术有什么前途
随着移动互联网日趋完善和语音技术的不断成熟,用户获取信息的方式呈现碎片化、本地化、个性化、情境化等特点。这类需求催生了大量的交互式人工智能应用产品。例如,让人们从重复枯燥的高度标准化的客户交流中解救出来的智能客服系统,执行疫情流调的智能语音机器人,像苹果的Siri这样的智能助理,像微软的小冰这样的情感陪伴AI等。智能对话是这些产品的底层技术,因而基于理解的“对话交互式”信息获取逐渐成为新兴的自然语言处理关键技术。
近年来,智能对话技术受到学术界和工业界的广泛关注。随着人工智能的发展,智能对话技术也逐渐从基于规则的受限专家系统,朝着结合机器学习、深度学习、强化学习和知识图谱等多项技术的认知型系统演进。作为一个初学者,它可以作为自然语言处理学习的系统方向之一。作为人工智能方向的从业者,学习和掌握智能对话技术能够帮助拓宽业务算法的解决思路,也是应聘自然语言处理工程师或Python工程师的一个加分项。
笔者的使用体会
随着智能对话在智能客服和智能音箱的逐渐落地应用,人们看到其在产业界的巨大潜力。它是继搜索引擎、推荐、翻译等自然语言处理(NLP)应用之后,又一极具前景的NLP应用方向。
笔者深感这一领域的日新月异,这个方向的论文成果层出不穷。但是这些理论性较强,实操性相对较差。需要初学者具备较多基础,阅读难度较大。纵观市场上全面介绍智能对话的中文书寥寥无几,倾向于仅仅介绍深度学习模型。这导致初学者对于智能问答缺乏一个系统深入性的认识。
智能对话是一个需要较多数学基础,机器学习、深度学习和强化学习理论及自然语言实践基础的方向。它也是一个实操性很强的方向,存在一些像AIML和Rasa这样优秀的开源框架可供初学者迅速建立智能对话系统的感性认知。由于它的实用性,也存在一些优秀企业级智能对话架构供参考。阅读智能对话相关的优秀源码也是初学者提升智能对话系统认知和构建水平的捷径。
这本书的特色从零开始:基础理论介绍和智能对话开源框架使用讲解,入门门槛低,易于初学者实战上手。内容全面:内容涉及FAQ问答、知识图谱问答、任务型问答和表格型问答等主要智能对话类型,也涵盖这些智能对话类型企业级的综合应用实例讲解。内容新颖:既有深度学习前沿算法介绍,也有强化学习智能对话相关算法及代码讲解。经验总结:全面归纳和整理作者多年的智能对话实践经验。内容实用:结合大量源代码和开源框架实例进行讲解,能迅速搭建自己的智能对话系统。通俗易懂:理论深入浅出,每章均可单独阅读,可作为床头书随时查阅。本书读者对象自然语言处理零基础入门人员及进阶人员。初中级NLP工程师。初中级AI算法工程师。开设相关课程的各类院校师生。智能对话系统相关培训学员。资源下载
本书所涉及的源代码已上传到百度网盘,供读者下载。请读者关注封底“博雅读书社”微信公众号,找到“资源下载”栏目,输入图书77页的资源下载码,根据提示获取。
温馨提示:读者阅读本书过程中遇到问题可以通过邮件与笔者联系。笔者常用的电子邮箱是wuke_sjtu@hotmail.com。
|
|