新書推薦:

《
造脸:整形外科的兴起(医学人文丛书)
》
售價:HK$
85.8

《
理由至上
》
售價:HK$
129.8

《
千秋堂丛书003:南渡之君——宋高宗的踌躇与抉择
》
售價:HK$
96.8

《
中国丝绸艺术大系·中国丝绸博物馆卷(明清)
》
售價:HK$
1078.0

《
为学习而设计:以任务驱动语文单元整体教学
》
售價:HK$
74.8

《
近三十年新中国史研究前沿问题
》
售價:HK$
107.8

《
中国社会各阶层分析
》
售價:HK$
96.8

《
纯粹·破壁与神游
》
售價:HK$
90.2
|
內容簡介: |
自然语言处理被誉为“人工智能皇冠上的明珠”。深度学习等技术的引入为自然语言处理技术带来了一场革命,尤其是近年来出现的基于大语言模型的方法,已成为研究自然语言处理的新范式。本书在介绍自然语言处理、深度学习等基本概念的基础上,重点介绍新的基于预训练语言模型和大语言模型的自然语言处理技术。本书包括基础知识、预训练语言模型和大语言模型三部分:基础知识部分主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集;预训练语言模型部分主要介绍语言模型、预训练词向量、预训练语言模型的实现方法和应用;大语言模型部分首先介绍大语言模型的预训练方法,其次介绍大语言模型的适配、应用和评估方法,接着介绍基于预训练语言模型思想的各种延伸技术,最后以DeepSeek 系列模型为例,介绍大语言模型的最新技术进展。除了理论知识,本书还有针对性地结合具体案例提供相应的PyTorch 代码实现,让读者不仅能对理论有更深刻的理解,还能快速地实现自然语言处理模型,达到理论和实践的统一。本书既适合具有一定机器学习基础的高等院校学生、研究机构的研究者,以及希望深入研究自然语言处理算法的计算机工程师阅读,也适合对人工智能、深度学习、大语言模型和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。
|
關於作者: |
车万翔哈尔滨工业大学计算学部长聘教授/博士生导师,人工智能研究院副院长,国家级青年人才,龙江学者“青年学者”,斯坦福大学访问学者。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;国际顶级会议ACL 2025程序委员会共同主席。承担国家自然科学基金重点项目和专项项目、2030“新一代人工智能”重大项目课题等多项科研项目。曾获AAAI 2013最佳论文提名奖、黑龙江省科技进步一等奖、黑龙江省青年科技奖等奖励。郭 江博士,现从事大模型、检索增强生成技术及企业数据智能等领域的研究,专注于相关技术在云服务中的应用与开发。曾任麻省理工学院计算机科学与人工智能实验室(CSAIL)博士后研究员,博士毕业于哈尔滨工业大学,并于约翰斯·霍普金斯大学联合培养。在人工智能与自然语言处理领域发表学术论文30余篇,累计被引用2400余次(据Google Scholar统计),并出版学术专著与译著各一部。曾获百度奖学金(全球每年仅授予10人)及中文信息学会“优秀博士学位论文”提名奖(2018年)。多次受邀担任国际顶级学术会议高级程序委员会委员和领域主席。崔一鸣博士,高级工程师,现任科大讯飞研究院资深科学家、科大讯飞北京研究院副院长,IEEE高级会员、CCF高级会员。博士毕业于哈尔滨工业大学。主要从事大模型、预训练模型、机器阅读理解等相关领域的研究工作,曾获得相关领域国际评测20余项冠军。所牵头研制的中文预训练模型、大模型开源项目(如Chinese-BERT-wwm、Chinese-LLaMA-Alapca系列),在开源平台累计获得4万次以上star,多次登顶GitHub Trending全球项目及开发者排行榜。在ACL、EMNLP、AAAI、IEEE/ACM TASLP等会议或期刊发表学术论文40余篇,其中ESI高被引论文1篇。曾获国际语义评测SemEval-2022最佳论文提名奖,2篇论文入选Paper Digest评选的最具影响力论文,多次入选“全球前2%顶尖科学家”。申请发明专利40余项、获授权专利16项。担任ACL 2025高级领域主席,EMNLP 2021、AACL 2022领域主席,ARR行动编辑,TACL常任审稿人等学术职务。
|
目錄:
|
目录 推荐序III 推荐语IV 前言VI 数学符号X 第1 部分基础知识 第1 章绪论2 1.1 自然语言处理的概念3 1.2 自然语言处理的难点.3 1.3 自然语言处理任务体系5 1.3.1 任务层级5 1.3.2 任务类别6 1.3.3 研究对象与层次6 1.4 自然语言处理技术发展历史7 第2 章自然语言处理基础11 2.1 文本的表示12 2.1.1 词的独热表示12 2.1.2 词的分布表示13 2.1.3 词嵌入表示18 2.1.4 文本的词袋表示18 2.2 自然语言处理任务19 2.2.1 自然语言处理基础任务19 2.2.2 自然语言处理应用任务25 2.3 基本问题30 2.3.1 文本分类问题30 2.3.2 结构预测问题30 2.3.3 序列到序列问题33 2.4 评价指标34 2.4.1 自然语言理解类任务的评价指标35 2.4.2 自然语言生成类任务的评价指标36 2.5 小结37 第3 章基础工具集与常用数据集38 3.1 tiktoken 子词切分工具39 3.2 NLTK 工具集40 3.2.1 常用语料库和词典资源41 3.2.2 常用自然语言处理工具集43 3.3 LTP 工具集45 3.3.1 中文分词45 3.3.2 其他中文自然语言处理功能45 3.4 PyTorch 基础46 3.4.1 张量的基本概念46 3.4.2 张量的基本运算47 3.4.3 自动微分 51 3.4.4 调整张量形状52 3.4.5 广播机制53 3.4.6 索引与切片54 3.4.7 降维与升维54 3.5 大规模预训练数据集55 3.5.1 维基百科数据55 3.5.2 原始数据的获取55 3.5.3 语料处理方法56 3.5.4 其他文本预训练数据集59 3.5.5 文本预训练数据集讨论60 3.6 更多数据集60 3.7 小结62 第4 章自然语言处理中的神经网络基础63 4.1 多层感知器模型64 4.1.1 感知器64 4.1.2 线性回归64 4.1.3 Logistic 回归65 4.1.4 Softmax 回归66 4.1.5 多层感知器67 4.1.6 模型实现68 4.2 卷积神经网络70 4.2.1 模型结构70 4.2.2 模型实现72 4.3 循环神经网络74 4.3.1 模型结构74 4.3.2 长短时记忆网络75 4.3.3 模型实现77 4.3.4 基于循环神经网络的序列到序列模型79 4.4 Transformer 模型79 4.4.1 注意力机制79 4.4.2 自注意力模型80 4.4.3 Transformer81 4.4.4 基于Transformer 的序列到序列模型85 4.4.5 Transformer 模型的优缺点85 4.4.6 PyTorch 内置模型实现 86 4.5 神经网络模型的训练87 4.5.1 损失函数87 4.5.2 梯度下降89 4.6 自然语言处理中的神经网络实战92 4.6.1 情感分类实战92 4.6.2 词性标注实战102 4.7 小结104 第2 部分预训练语言模型 第5 章语言模型107 5.1 语言模型的基本概念108 5.2 N 元语言模型108 5.2.1 N 元语言模型的基本概念108 5.2.2 N 元语言模型的实现109 5.2.3 N 元语言模型的平滑111 5.3 神经网络语言模型112 5.3.1 前馈神经网络语言模型113 5.3.2 循环神经网络语言模型114 5.3.3 Transformer 语言模型116 5.3.4 基于神经网络语言模型生成文本 117 5.4 语言模型的实现118 5.4.1 数据准备 118 5.4.2 前馈神经网络语言模型119 5.4.3 循环神经网络语言模型122 5.4.4 Transformer 语言模型125 5.5 语言模型性能评价129 5.6 小结130 第6 章预训练词向量131 6.1 预训练静态词向量132 6.1.1 基于神经网络语言模型的静态词向量预训练132 6.1.2 Word2vec 词向量132 6.1.3 负采样135 6.1.4 GloVe 词向量136 6.1.5 模型实现137 6.1.6 评价与应用143 6.2 预训练动态词向量148 6.2.1 双向语言模型149 6.2.2 ELMo 词向量151 6.2.3 模型实现 152 6.2.4 评价与应用162 6.3 小结 164 第7 章预训练语言模型166 7.1 概述167 7.2 Decoder-only 模型167 7.2.1 GPT 168 7.2.2 GPT-2 172 7.2.3 GPT-3 173 7.3 Encoder-only 模型174 7.3.1 BERT 174 7.3.2 RoBERTa 185 7.3.3 ALBERT 189 7.3.4 ELECTRA 191 7.3.5 MacBERT 194 7.3.6 模型对比196 7.4 Encoder-Decoder 模型196 7.4.1 T5 197 7.4.2 BART 198 7.5 预训练模型的任务微调:NLU 类201 7.5.1 单句文本分类202 7.5.2 句对文本分类205 7.5.3 阅读理解207 7.5.4 序列标注211 7.6 预训练模型的任务微调:NLG 类216 7.6.1 文本生成216 7.6.2 机器翻译217 7.7 小结220 第3 部分 大语言模型 第8 章 大语言模型的预训练222 8.1 大语言模型的基本结构223 8.1.1 Llama 223 8.1.2 Mixtral 226 8.1.3 缩放法则228 8.1.4 常见大语言模型对比230 8.2 注意力机制的优化230 8.2.1 稀疏注意力231 8.2.2 多查询注意力与分组查询注意力233 8.2.3 FlashAttention 234 8.3 位置编码策略237 8.3.1 RoPE 237 8.3.2 ALiBi 240 8.4 长上下文处理策略242 8.4.1 位置插值法242 8.4.2 基于NTK 的方法245 8.4.3 LongLoRA 246 8.4.4 YaRN 247 8.5 并行训练策略251 8.5.1 数据并行251 8.5.2 模型并行252 8.5.3 流水线并行254 8.5.4 混合并行254 8.5.5 零冗余优化255 8.5.6 DeepSpeed 256 8.6 小结257 第9 章大语言模型的适配258 9.1 引言259 9.2 基于提示的推断259 9.2.1 提示工程260 9.2.2 检索与工具增强267 9.3 多任务指令微调269 9.3.1 现有数据集转换271 9.3.2 自动生成指令数据集271 9.3.3 指令微调的实现273 9.4 基于人类反馈的强化学习276 9.4.1 基于人类反馈的强化学习算法的原理276 9.4.2 基于人类反馈的强化学习算法的改进279 9.4.3 人类偏好数据集280 9.5 参数高效精调280 9.5.1 LoRA 281 9.5.2 QLoRA 284 9.5.3 Adapter 288 9.5.4 Prefix-tuning 289 9.5.5 P-tuning 290 9.5.6 Prompt-tuning 291 9.6 大语言模型的中文适配 292 9.6.1 中文词表扩充 292 9.6.2 中文增量训练 295 9.7 大语言模型压缩 296 9.7.1 知识蒸馏 296 9.7.2 模型裁剪 302 9.7.3 参数量化 305 9.8 小结 310 第10 章大语言模型的应用311 10.1 大语言模型的应用示例312 10.1.1 知识问答 312 10.1.2 人机对话 313 10.1.3 文本摘要 314 10.1.4 代码生成 315 10.2 生成指令数据 316 10.2.1 Self-Instruct 316 10.2.2 Alpaca 319 10.2.3 WizardLM 322 10.3 大语言模型的量化与部署324 10.3.1 llama.cpp 324 10.3.2 transformers 329 10.3.3 vLLM 332 10.4 本地化开发与应 335 10.4.1 LangChain 335 10.4.2 privateGPT 338 10.5 工具调用与自动化 342 10.5.1 AutoGPT 342 10.5.2 HuggingGPT 346 10.6 小结348 第11 章大语言模型的能力评349 11.1 引言350 11.2 通用领域及任务评估350 11.2.1 语言理解能力350 11.2.2 文本生成能力352 11.2.3 知识与推理能力357 11.3 特定领域及任务评估360 11.3.1 数学360 11.3.2 代码360 11.4 模型对齐能力评估362 11.4.1 有用性363 11.4.2 无害性365 11.4.3 安全性367 11.4.4 真实性367 11.5 大语言模型的评价方法368 11.5.1 评价设置:适配368 11.5.2 自动评价方法369 11.5.3 人工评价方法370 11.5.4 红队测试371 11.6 小结372 第12 章预训练语言模型的延伸374 12.1 多语言预训练模型375 12.1.1 多语言BERT 375 12.1.2 跨语言预训练语言模型376 12.1.3 多语言预训练语言模型的应用378 12.1.4 大规模多语言模型379 12.2 代码预训练模型379 12.2.1 代表性代码预训练模型380 12.2.2 代码预训练模型的对齐383 12.2.3 代码预训练模型的应用383 12.3 多模态预训练模型384 12.3.1 掩码图像模型384 12.3.2 基于对比学习的多模态预训练模型.386 12.3.3 图到文预训练模型388 12.3.4 图像或视频生成390 12.4 具身预训练模型392 12.5 小结394 第13 章DeepSeek 系列模型原理简介395 13.1 DeepSeek 系列模型概述396 13.2 模型架构优化398 13.2.1 算法优化398 13.2.2 基础设施优化 402 13.3 基于强化学习习得推理能力405 13.3.1 DeepSeek-R1-Zero:仅通过强化学习习得推理能力405 13.3.2 DeepSeek-R1:规范性和泛化性408 13.3.3 蒸馏: 推理能力的迁移 411 13.4 小结 411 参考文献413 术语表421
|
|