新書推薦:

《
跑外卖:一个女骑手的世界
》
售價:HK$
68.4

《
封关运作背景下的海南自由贸易港(建设中国特色自由贸易港丛书)
》
售價:HK$
85.8

《
滞后情书
》
售價:HK$
47.1

《
日本新中产阶级:东京近郊的工薪职员及他们的家庭(看日本系列)
》
售價:HK$
96.8

《
北派2:西夏梵音(网络原名《北派盗墓笔记》)
》
售價:HK$
52.8

《
当代中国经济讲义
》
售價:HK$
151.8

《
日本第一:对美国的启示(看日本系列)
》
售價:HK$
61.6

《
砂与海之歌纪念画集
》
售價:HK$
107.8
|
編輯推薦: |
本书深入浅出地介绍了人工智能和大模型的核心概念和算法,以及这些技术是如何发明和发展的。通过阅读本书,读者能够理解大模型背后的技术,感受到它所带来的改变。
|
內容簡介: |
本书从大型模型的结构讲起,让读者了解大型模型的内部实现原理,然后讲解如何在特定任务下对大型模型进行预训练、有监督的微调,以及进行强化学习。通过对模型采用不同方法的训练,持续改进模型在特定任务上的性能。最后,本书将与读者一起探讨如何利用大型模型开发大模型时代的智能应用。
來源:香港大書城megBookStore,http://www.megbook.com.hk 本书共9章,第1章讲解大型模型发展的历史及其带来的变革。第2章深入讲解大型模型内部结构的演进。第3章会尝试自己运行一个大模型。第4章介绍大型模型对模型训练和推理过程中带来的技术挑战和解决办法。第5章讲解如何进行大型模型的预训练以获取大模型的基本能力。第6章讲解如何对大模型进行有监督的微调,使大型模型输出与人类意图对齐。第7章讲解如何通过强化学习进一步提升大型模型的表现。第8章讲解如何对大模型进行评估。第9章讲解如何利用大模型构建智能应用。
本书适合有一定深度学习基础的读者,帮助他们从原理到应用,快速了解大型模型的原理、训练方法,并利用大型模型进行智能应用的开发。
|
關於作者: |
薛鹏,深圳力维智联技术有限公司人工智能首席科学家,上海迥灵信息技术有限公司CTO,原IBM AI产品Tech Lead。负责研发多款AI产品,十五年人工智能技术应用经验。目前致力于大模型平台产品研发和大模型技术行业应用。
|
目錄:
|
本书源码
第1章大模型时代
1.1大模型的发展历史
1.1.1注意力机制的发扬光大
1.1.2从GPT到InstructGPT
1.1.3ChatGPT惊艳登场
1.1.4全球首个AI程序员诞生
1.2大模型时代的新范式
第2章深入了解大模型(59min)
2.1Transformer横空出世
2.1.1词典生成
2.1.2词嵌入
2.1.3自注意力机制
2.1.4层归一化
2.1.5残差连接
2.1.6前馈模块
2.1.7Transformer的整体架构
2.1.8位置编码
2.1.9解码器的输入输出
2.1.10掩码机制
2.1.11交叉注意力
2.1.12线性分类头
2.2GPT
2.2.1GPT1
2.2.2GPT2
2.2.3GPT3
2.2.4GPT4
2.3OpenAI o1
2.4Llama
2.4.1Llama1
2.4.2Llama2
2.4.3Llama3
第3章运行第1个大模型
3.1HuggingFace介绍
3.2下载大模型
3.3运行大模型
3.4HuggingFace里的Tokenizer
3.5HuggingFace里的模型
3.5.1创建和保存模型
3.5.2控制大模型的输出
第4章大模型带来的技术挑战(127min)
4.1GPU的工作原理
4.1.1CPU和GPU的区别
4.1.2GPU的架构
4.1.3GPU里的存储
4.1.4Tensor Core
4.2大模型显存占用
4.3优化器
4.3.1指数加权平均
4.3.2SGD
4.3.3动量梯度下降
4.3.4RMSProp
4.3.5Adam
4.3.6AdamW
4.4混合精度训练
4.4.1混合精度训练原理
4.4.2在PyTorch里进行混合精度训练
4.5模型的量化技术
4.5.1量化技术的原理
4.5.2训练后动态量化
4.5.3训练后静态量化
4.5.4量化感知训练
4.5.5LLM.int8
4.5.6NF4量化
4.6梯度累加
4.7梯度检查点
4.8分布式训练
4.8.1分布式数据并行
4.8.2DeepSpeed ZeRO
4.8.3Accelerate
4.9参数高效微调
4.9.1提示词微调
4.9.2LoRA
4.10vLLM
4.10.1KV Cache
4.10.2Page Attention
4.10.3块共享
4.10.4代码示例
4.11FlashAttention
第5章大模型的预训练(15min)
5.1预训练的作用
5.2预训练的数据
5.3预训练的方法
5.4预训练Llama3.1
5.4.1最简训练代码
5.4.2数据清洗
5.4.3数据准备
5.4.4初始化模型
5.4.5模型预训练
第6章大模型的监督微调(13min)
6.1对话模板
6.2只关注回答
6.3噪声嵌入微调
6.4SFT Trainer
第7章大模型的强化学习(69min)
7.1强化学习基础
7.1.1强化学习里的基础概念
7.1.2策略梯度算法
7.1.3ActorCritic算法
7.1.4广义优势估计算法
7.2近端策略优化
7.3直接偏好优化
7.3.1KL散度
7.3.2BradleyTerry模型
7.3.3DPO的训练目标
7.4利用TRL库进行PPO训练
7.4.1奖励模型
7.4.2PPO模型
第8章大模型的评估
8.1困惑度
8.2人工评估
8.3可解析的测评集
8.3.1MMLU
8.3.2MMLUPRO
8.3.3IFEVAL
8.3.4BBH
8.3.5MATH
8.3.6GPQA
8.4利用大模型评估
第9章构建大模型应用
9.1提示词工程
9.1.1明确的任务指示
9.1.2提供上下文信息
9.1.3赋予大模型角色
9.1.4给模型思考时间
9.1.5给模型参考示例
9.2LangChain介绍
9.3第1个LangChain程序
9.4构建一个聊天机器人
9.5LangChain的进阶功能
9.5.1对输出进行解析
9.5.2为提示词增加样例
9.6检索增强生成
9.6.1RAG流程
9.6.2文档分片
9.6.3向量嵌入模型
9.6.4向量存储
9.6.5Retriever
9.6.6生成回答
9.7RAG进阶
9.7.1问题转化
9.7.2混合检索
9.7.3索引增强
9.7.4检索结果重排
9.8智能体
9.8.1创建第1个智能体
9.8.2给智能体定义工具
9.8.3智能体使用工具的原理
9.8.4给智能体增加记忆
9.8.5人与智能体合作
9.8.6多智能体协作
|
內容試閱:
|
时间回到2010年,笔者刚刚加入IBM SPSS Modeler的研发团队,从此开始了笔者在人工智能领域的职业生涯。转眼间,这段旅程已经持续了十五年。这十五年里,人工智能的发展波澜壮阔,笔者有幸站在科技的潮头,见证了3次极具意义的浪潮。每次浪潮都代表了人类对于智能的探索迈入了新的阶段,每次浪潮也深刻地改变了科技的边界,社会的面貌,以及我们的日常生活。
在笔者的职业生涯中,第1次人工智能浪潮可以追溯到卷积神经网络的崛起。这一波浪潮最具代表性的事件,也就是深度学习在计算机视觉领域的突破性进展。从2012年AlexNet在ImageNet比赛上的惊艳表现开始,计算机视觉得以迅猛发展,神经网络在图像识别、物体检测、人脸识别等领域逐渐超过了人类的表现。可以说,卷积神经网络让计算机具备了“看”的能力,得以从数亿像素中理解出形状和内容。那一时期,视觉任务相对容易取得突破,这在一定程度上归功于图像本身所包含的直观且自成一体的信息。就像一个三岁小孩能够通过图像辨别出水果、动物、人物一样,计算机在有了强大的视觉模型之后也能通过学习海量的图片,较为准确地判断图像中包含了什么。
然而,语言是另外一个层次的挑战。语言是人类社会最自然的沟通工具,却充满了歧义和复杂的语境。一句话中的每个词汇都可能包含多重含义,需要结合上下文乃至社会背景去理解,尤其是在日常交流中,隐含的讽刺、幽默,甚至体察情绪的能力远远超过一个刚学会说话的孩子。这就意味着,语言理解和生成任务对计算机来讲要比视觉更具挑战。
这就带来了第2次人工智能浪潮: 基于Transformer的BERT预训练模型的出现。BERT模型通过利用大量语料和创新性的训练方法(例如前后句判断和完形填空式的掩码训练)让模型逐渐学会理解语义和语境。这一阶段,基于Transformer架构的模型使自然语言处理实现了跨越式的发展。与之前的循环神经网络相比,Transformer显著地提高了训练效率,通过自注意力机制,不仅能并行处理序列数据,还能在长句中抓住远距离词语之间的关联。BERT的出现使NLP各项任务达到了前所未有的高度——机器能够理解段落、回答问题、生成摘要,并且通过预训练与下游任务微调的结合方式,有效地解决了许多工程应用中的问题。
然后我们迎来了第3次浪潮,这一浪潮就是当前的大模型革命。GPT系列的出现,尤其是GPT3的出现和ChatGPT的广泛传播,让人工智能不再局限于特定领域,而是成为全社会的讨论热点。GPT3不仅是一种模型,它的能力和表现让我们重新思考人与机器之间的互动模式。通过自然语言,GPT3具备了与人类进行复杂对话、进行推理、提供创意建议的能力,ChatGPT的出现更是掀起了一场关于人工智能将如何改变社会的全民讨论。这是我们朝向通用人工智能迈出的重要一步,各行各业都在思考大模型将如何彻底变革其生产模式和交互方式。
大模型的崛起带来了前所未有的理解、推理、生成的通用能力,也改变了人类与机器的交互方式。在这个大模型的时代,人与机器之间的界限变得越来越模糊,机器不再只是简单地接受命令,它开始具备理解上下文、推测人类意图,甚至具有一定创造力的能力。这种变革不仅是技术上的突破,更是一次对于人类社会运作方式的重新定义。
笔者深感非常幸运,能够处在这样一个激动人心的时代。人工智能的大浪潮,既推动了时代的进步,也让我们这些从业者成为这场伟大变革的亲历者。笔者感受到的,不只是对于技术进步的震撼,更是对于未来无限可能性的憧憬。
本书旨在和读者一起探索大模型的原理、发展和应用,笔者希望通过本书,能够帮助更多的读者理解大模型背后的技术,感受到它所带来的改变。无论你是科技爱好者,还是从事其他领域的专业人士,笔者相信你都能在这场变革中找到属于自己的启发和机遇。
希望我们能够共同见证大模型时代的到来,也希望我们能够携手探索,用大模型技术去改变我们的生活,让人工智能成为我们日常的助手、伙伴,甚至灵感的源泉。让我们一起迎接这个充满希望和挑战的未来。
资源下载提示
素材(源码)等资源: 扫描目录上方的二维码下载。
视频等资源: 扫描封底的文泉云盘防盗码,再扫描书中相应章节的二维码,可以在线学习。
笔者的阅历有限,书中难免存在疏漏,希望读者热心指正,在此表示感谢。
薛鹏
2025年5月于西安
|
|