新書推薦:

《
一周一堂经济学课:为了更好地理解这个世界
》
售價:HK$
107.8

《
慢性胃炎的中医研究 胃
》
售價:HK$
657.8

《
南移:宋代社会中心的转迁
》
售價:HK$
162.8

《
纯粹·水浒江湖:理解中国古代社会的一种另一条线索
》
售價:HK$
101.2

《
肌骨复健实践指南:运动损伤与慢性疼痛
》
售價:HK$
294.8

《
数据库原理与应用(MySQL版)
》
售價:HK$
64.9

《
商业数据与分析决策:解锁数据资产,提高商业创新能力
》
售價:HK$
79.2

《
倾盖如故:人物研究视角下的近世东亚海域史
》
售價:HK$
77.0
|
內容簡介: |
本书系统阐述了DeepSeek大模型架构、部署及应用实战的相关内容。从人工智能和大模型的基础理论出发,深入剖析了DeepSeek的底层技术,如Transformer架构、混合专家、动态任务分配、稀疏激活及归一化等关键技术,并详细介绍了模型训练、优化和推理的前沿方法。书中不仅展示了DeepSeek在多模态模型和推理系统中的技术优势,还提供了丰富的实战案例,涵盖了从本地部署到云端应用,再到与办公软件、开发工具和Web交互系统的无缝集成。通过理论解析与实践演示,读者将获得从模型设计到实际应用全流程的详细指导。本书非常适合人工智能领域的技术开发者、系统架构师,以及初探大模型应用的爱好者学习,也可用作高等院校相关专业的教材及参考书。
|
目錄:
|
第1章 人工智能和DeepSeek概述 001
1.1 人工智能 002
1.1.1 什么是人工智能 002
1.1.2 人工智能的起源与发展历程 003
1.2 大模型 003
1.2.1 大模型的原理和作用 004
1.2.2 大模型的兴起与现状 004
1.2.3 主流大模型介绍 005
1.3 DeepSeek 006
1.3.1 DeepSeek简介 007
1.3.2 DeepSeek对人工智能市场的影响 007
1.3.3 DeepSeek的产品 008
1.3.4 DeepSeek的应用场景 009
1.3.5 DeepSeek与其他模型的技术对比 010
第2章 DeepSeek底层架构技术 014
2.1 Transformer架构技术 015
2.1.1 Transformer简介 015
2.1.2 Transformer的核心组件 015
2.1.3 多头注意力机制 017
2.1.4 多头潜在注意力 017
2.2 动态任务分配 018
2.2.1 动态任务分配的特点和原理 018
2.2.2 动态任务分配的应用场景 019
2.3 稀疏激活机制 022
2.3.1 稀疏激活机制简介 022
2.3.2 稀疏激活机制的实现方式 023
2.3.3 稀疏激活机制的应用领域 026
2.4 混合专家架构技术 027
2.4.1 混合专家架构简介 028
2.4.2 MoE的特点 028
2.4.3 MoE的应用 030
2.4.4 DeepSeek中的MoE 031
2.5 归一化技术 032
2.5.1 归一化技术的必要性 032
2.5.2 LayerNorm技术 032
2.5.3 RMSNorm技术 033
2.6 模型训练与优化技术 034
2.6.1 多令牌预测(MTP)技术 034
2.6.2 高效并行策略 035
2.6.3 混合精度训练与量化策略 036
2.6.4 EMA显存优化 037
2.6.5 头尾参数共享 038
第3章 DeepSeekMoE架构 039
3.1 DeepSeekMoE架构简介 040
3.1.1 背景 040
3.1.2 DeepSeekMoE架构策略 041
3.1.3 DeepSeekMoE与传统MoE架构的区别 041
3.2 DeepSeekMoE架构详解 042
3.2.1 细粒度专家细分 042
3.2.2 共享专家隔离 043
3.2.3 负载平衡 043
3.3 DeepSeekMoE的微调 045
3.3.1 DeepSeekMoE微调技术介绍 045
3.3.2 ZeRO优化 046
3.3.3 具体实现 047
3.4 性能评估 051
3.4.1 训练数据和分词 051
3.4.2 硬件基础设施 052
3.4.3 设置超参数 052
3.4.4 评估基准 053
3.4.5 评估结果 054
3.4.6 和稠密模型的对比 056
3.4.7 DeepSeekMoE 2B模型测试 057
3.5 消融研究 058
3.5.1 消融研究介绍 058
3.5.2 消融研究在大模型中的应用 059
3.5.3 DeepSeekMoE的消融研究 059
3.6 DeepSeekMoE 16B测试 060
3.6.1 训练数据和分词 060
3.6.2 设置超参数 061
3.6.3 评估基准 062
3.7 DeepSeekMoE 16B的对齐 063
3.7.1 测试设置 063
3.7.2 评估结果 064
第4章 DeepSeek多模态大模型架构 067
4.1 DeepSeek多模态大模型的发展历程 068
4.2 Janus模型架构 069
4.2.1 架构简介 069
4.2.2 多模态理解 070
4.2.3 视觉生成路径 073
4.2.4 自回归Transformer 076
4.2.5 三阶段训练策略(Three-Stage Training Procedure) 078
4.2.6 Janus模型的推理与扩展性 078
4.3 Janus-Pro架构 079
4.3.1 解耦视觉编码 079
4.3.2 训练策略 080
4.3.3 优化训练策略 082
4.3.4 数据扩展策略 083
4.3.5 模型规模扩展 084
4.4 JanusFlow架构 085
4.4.1 实现多模态模型 086
4.4.2 结合自回归语言模型与Rectified Flow 090
4.4.3 采用任务解耦的编码器 (Decoupled Encoder Design) 091
4.4.4 U-ViT模型 091
4.4.5 三阶段训练策略 092
4.4.6 实验结果 092
4.5 DeepSeek-VL2多模态视觉模型 094
4.5.1 模型架构 094
4.5.2 技术创新与亮点 096
4.5.3 模型训练 097
4.5.4 和Janus项目的对比 098
第5章 DeepSeek推理模型架构 100
5.1 背景 101
5.2 DeepSeek-R1模型简介 101
5.2.1 DeepSeek-R1模型演进 101
5.2.2 DeepSeek-R1模型的基本架构 102
5.2.3 训练方案 103
5.2.4 开源信息 104
5.3 推理模型的相关技术 105
5.3.1 混合专家(MoE)架构 105
5.3.2 多头潜在注意力 106
5.3.3 强化学习 107
5.4 DeepSeek-R1-Zero训练方案 108
5.4.1 强化学习算法 109
5.4.2 奖励建模 110
5.4.3 训练模板 112
5.4.4 DeepSeek-R1-Zero的自我进化过程 112
5.4.5 在DeepSeek-R1-Zero的“顿悟时刻” 114
5.4.6 DeepSeek-R1-Zero性能测试 115
5.5 DeepSeek-R1训练方案 115
5.5.1 冷启动 116
5.5.2 推理导向的强化学习 117
5.5.3 拒绝采样和监督微调 118
5.5.4 全场景强化学习 120
5.6 蒸馏处理 122
5.6.1 AI大模型中的蒸馏处理 122
5.6.2 基础模型的选择与蒸馏过程 124
5.6.3 模型蒸馏的技术原理 125
5.6.4 评估蒸馏模型 126
5.6.5 小结 127
第6章 DeepSeek模型的本地部署 128
6.1 本地部署的优势与常见挑战 129
6.2 Ollama本地部署 130
6.2.1 安装Ollama 130
6.2.2 DeepSeek模型的安装与配置 132
6.2.3 基于本地DeepSeek模型的对话程序 134
6.3 LM Studio本地可视化部署 137
6.3.1 LM Studio的特点与安装 137
6.3.2 安装并配置DeepSeek模型 139
6.3.3 LM Studio API 142
6.3.4 使用Dify调用LM Studio模型 144
6.4 Chatbox本地部署 146
6.4.1 Chatbox简介 146
6.4.2 Chatbox Ollama的本地部署 147
6.5 基于Ollama Docker Open WebUI的本地部署 151
6.5.1 Open WebUI简介 151
6.5.2 Docker简介 152
6.5.3 使用Docker部署OpenWebUI容器 153
第7章 DeepSeek接入实战 157
7.1 DeepSeek API基础知识 158
7.1.1 DeepSeek API简介 158
7.1.2 DeepSeek API基本教程 158
7.1.3 基于DeepSeek API的对话程序 161
7.2 DeepSeek的基本接入实战 162
7.2.1 接入Chatbox 162
7.2.2 NextChat接入实战 165
7.3 社交媒体工具接入实战 170
7.3.1 基于茴香豆 DeepSeek打造微信聊天机器人 170
7.3.2 基于LangBot DeepSeek打造QQ机器人 174
7.4 将DeepSeek接入到Office 179
7.4.1 OfficeAI简介 179
7.4.2 将DeepSeek接入Word 181
7.4.3 将DeepSeek接入Excel 185
7.5 将DeepSeek接入VS Code 189
7.5.1 Continue基础 189
7.5.2 接入DeepSeek 191
7.5.3 调用DeepSeek生成代码 192
7.5.4 DeepSeek代码智能生成和补全 193
第8章 DeepSeek远程和云端部署 194
8.1 使用腾讯云部署DeepSeek 195
8.1.1 创建DeepSeek-R1应用 195
8.1.2 通过OpenWebUI使用DeepSeek模型 197
8.1.3 通过ChatbotUI使用DeepSeek模型 199
8.1.4 通过终端连接命令行使用DeepSeek模型 200
8.1.5 基于腾讯云和DeepSeek的个人知识库 201
8.2 使用百度云部署DeepSeek 203
8.2.1 体验已部署好的DeepSeek 203
8.2.2 部署自己的DeepSeek 206
8.2.3 基于DeepSeek模型的Agent 208
8.3 使用阿里云部署DeepSeek 212
8.3.1 开通人工智能平台PAI 212
8.3.2 一键部署DeepSeek模型 213
8.3.3 基于DeepSeek打造钉钉聊天机器人 216
第9章 基于DeepSeek的Web聊天交互系统 221
9.1 项目背景 222
9.2 项目概况 222
9.2.1 主要功能 222
9.2.2 技术栈 223
9.2.3 安装Node.js 224
9.3 配置文件和基础工具函数 228
9.3.1 导航菜单配置 228
9.3.2 基础工具函数 229
9.3.3 API交互工具函数 230
9.3.4 状态管理逻辑函数 252
9.4 组件 261
9.4.1 页面布局组件 262
9.4.2 设置组件 267
9.4.3 聊天组件 286
9.5 调试运行 297
参考文献 299
|
內容試閱:
|
DeepSeek作为大模型与多模态技术领域的一项前沿创新,正以前所未有的速度推动着人工智能的发展与应用。从智能问答、跨平台协作到多模态内容生成,DeepSeek不仅在理论上实现了架构设计的突破,更在实际场景中展现了强大的适应性和高效性能。随着算法优化、算力提升和数据智能化的不断演进,传统生成模型在面对海量信息和复杂任务时的局限性逐渐显现,而DeepSeek凭借其混合专家架构、动态任务分配及稀疏激活机制等核心技术,为解决这一挑战提供了全新的思路和方法。
本书系统地介绍了DeepSeek的基础理论、底层架构及关键技术,从Transformer原理、混合专家到多模态模型和推理系统,全方位解析了DeepSeek在模型训练、优化和应用部署中的创新实践。书中不仅详细阐述了从本地部署到云端应用的全流程解决方案,还通过丰富的实际案例,展示了DeepSeek在智能对话、办公自动化、代码生成与补全等多领域的成功落地应用。
本书的特色
本书以DeepSeek的核心技术为主线,结合理论分析与实践案例,系统讲解了大模型的架构、优化及应用,旨在帮助读者快速掌握DeepSeek的开发与落地。以下是本书的主要特色:
1.全面解析DeepSeek底层架构
DeepSeek作为新一代大模型,在架构设计、训练优化、推理加速等方面均有创新。本书从Transformer基础、混合专家(MoE)、动态任务调度等多个角度,剖析DeepSeek的核心机制,帮助读者深入理解其工作原理。
2.详尽全面的接入教程,贴近市场需求
本书的DeepSeek接入实战部分以丰富的案例为依托,系统展示了如何将DeepSeek无缝接入各类应用平台。从智能聊天机器人、社交媒体工具到办公软件和开发环境,每个实战案例都详细解析了API调用、数据交互及多平台集成的全流程,帮助读者快速掌握实际操作技能,实现跨场景智能应用的高效落地。
3.理论结合实践,助力高效学习
本书不仅提供详细的理论解析,还结合实际应用场景,通过代码示例、实验结果及优化策略,帮助读者快速上手。从模型训练、微调到推理部署,全面覆盖DeepSeek的关键环节。
4.深度优化与性能提升指南
针对大模型的计算开销与推理速度问题,本书探讨了多GPU并行计算、量化技术、模型裁剪等优化方案,帮助开发者在实际应用中提升模型效率,降低部署成本。
5.多模态与跨平台应用探索
DeepSeek支持文本、图像、音频等多模态任务。本书详细介绍了多模态信息融合、跨平台协作等关键技术,并提供了在智能助手、代码补全、办公自动化等场景下的落地案例。
6.部署与应用实战全覆盖
本书详细讲解了如何利用Ollama、LM Studio、Chatbox等工具实现DeepSeek的本地化部署,有效解决环境配置和调优中的实际问题。同时,书中专门探讨了在腾讯云、百度云、阿里云等平台上部署DeepSeek的方法,全面阐释了云端应用的构建、扩展及维护策略。
7.适合多层次读者,兼具理论深度与实战价值
无论是人工智能初学者,还是深度学习工程师,本书都提供了清晰的学习路径和实战指南,帮助读者从概念理解到技术实现,构建完整的知识体系,快速掌握DeepSeek的应用精髓。
本书的读者对象
1.人工智能开发者与研究人员
对于从事人工智能、深度学习、大模型及多模态技术领域的开发者和研究人员,本书提供了深入的理论解析和前沿的实战案例,是掌握DeepSeek核心架构和优化策略的重要参考资料。
2.大模型与多模态技术爱好者
对于关注大模型创新和多模态数据融合的技术爱好者,本书详细展示了DeepSeek如何整合多种数据形式,实现智能生成与高效推理,激发对未来智能系统构建的探索兴趣。
3.企业技术负责人及架构师
本书系统分析了DeepSeek在实际业务中的部署方案、模型优化及跨平台集成策略,为企业技术负责人和架构师在AI产品落地和系统设计中提供了实用且前瞻的指导。
4.数据工程师与算法工程师
书中全面讲解了数据预处理、模型训练、API接入和优化技术,是数据工程师与算法工程师提升项目开发能力、实现高效应用的重要技术手册。
5.高校师生与科研人员
对于高校师生和科研人员来说,本书内容结构严谨、案例丰富,既能作为课堂学习的补充资料,又能为科研项目提供实践指导和技术支持。
6.产品经理与技术决策者
希望了解先进大模型技术与智能应用价值的产品经理和技术决策者,可通过本书掌握DeepSeek的技术优势和实际应用场景,从而为产品设计和战略决策提供创新思路。
致谢
本书从编写到出版整个过程中,得到了化学工业出版社各位编辑的悉心指导与大力支持。正是他们以严谨、耐心和高效的态度,确保了本书能够在最短的时间内顺利出版。对此,深表感谢。
同时,衷心感谢家人在写作期间给予的巨大支持与理解。他们的陪伴与鼓励是本书能够顺利完成的重要动力。
由于水平有限,书中难免存在纰漏与不足之处,恳请广大读者不吝赐教,提出宝贵的意见与建议,以便在后续版本中不断完善与改进。本书的QQ服务群号:549454007。
编著者
|
|