新書推薦:

《
桐阴清话(《岭南文库·岭南史料笔记丛刊》)
》
售價:HK$
88.0

《
海权通论
》
售價:HK$
138.6

《
花园生活美学
》
售價:HK$
140.8

《
与自闭症儿子同行 3:为了工作,加油
》
售價:HK$
53.9

《
休谟的政治哲学(增订版)
》
售價:HK$
129.8

《
匠心铸梦:江南造船与中国首批万吨轮的创世传奇(汉英对照版)
》
售價:HK$
165.0

《
书法字典
》
售價:HK$
74.8

《
拯救乳房:乳腺癌患者生活指南
》
售價:HK$
75.9
|
編輯推薦: |
自然语言处理(NLP),已是AI浪潮中不可或缺的关键技术,从智能搜索到虚拟助手,NLP无处不在,预示着AI的未来趋势。《基于深度学习和模型驱动的自然语言处理》以当前最前沿的Transformer和BERT等大模型为核心,通过对实践案例的讲解,引领读者探索NLP的前沿理论与实际应用。《基于深度学习和模型驱动的自然语言处理》不空谈理论,而是通过大量实践案例,探索NLP的深层奥秘,解决真实世界的复杂问题。本书不仅为学生和研究人员提供了提升专业能力的理论基础,也为相关从业者在解决实际业务问题时提供了参考方案。
|
內容簡介: |
《基于深度学习和模型驱动的自然语言处理》循序渐进、深入讲解了使用Python语言实现自然语言处理(NLP)的核心知识,内容涵盖了数据处理、算法、大模型等。书中通过具体实例的实现过程,演练了各个知识点的使用方法和流程。全书共9章,分别讲解了人工智能与自然语言处理基础、特征提取、文本分类与情感分析算法、语义分析与理解算法、机器翻译算法、命名实体识别、大模型Transformer、大模型BERT,以及综合实战:基于大模型的情感分析系统。
來源:香港大書城megBookStore,http://www.megbook.com.hk 《基于深度学习和模型驱动的自然语言处理》适用于已经掌握Python语言基础语法,并且希望进一步学习数据分析、大模型、机器学习、深度学习和自然语言处理技术的读者。此外,本书也可作为大专院校相关专业的师生用书,以及培训机构的教材。
|
關於作者: |
刘陈,计算机硕士,百度AI开发工程师,开发经验丰富,精通Python、机器学习、深度学习等开发技术,能够熟练运用各种大模型开发技术。现就职于百度,负责AI大模型的开发工作,参与了百度VIMER-StrucTexT 2.0模型的开发工作。在开发过程中,创新性地提出了技术解方案,为模型的快速发布起了关键作用。在文心大模型的开发过程中,和开发团队完成了核心模块的研发工作,为百度文心大模型的的发布发挥了重要作用。
|
目錄:
|
第1章 人工智能与自然语言处理基础 1
1.1 人工智能 2
1.1.1 人工智能的发展历程 2
1.1.2 人工智能的研究领域 3
1.1.3 人工智能对人们生活的影响 4
1.2 机器学习和深度学习 5
1.2.1 机器学习 5
1.2.2 深度学习 5
1.2.3 机器学习和深度学习的区别 6
1.3 自然语言处理 8
1.3.1 自然语言与人工语言 8
1.3.2 自然语言处理的定义与范畴 9
1.4 自然语言处理的应用领域 10
1.5 自然语言处理的挑战与机遇 11
1.5.1 挑战 11
1.5.2 机遇 11
第2章 特征提取基础与实践 13
2.1 特征提取基础 14
2.1.1 特征在大模型中的关键作用 14
2.1.2 特征提取与数据预处理的互补 15
2.2 常见的特征类型 16
2.2.1 数值特征和类别特征 16
2.2.2 高维数据的挑战 17
2.3 特征选择的好处和方法 17
2.3.1 使用特征选择的必要性 17
2.3.2 特征选择的方法和实践 18
2.4 特征抽取的概念和方法 22
2.4.1 特征抽取的概念 23
2.4.2 主成分分析方法和实践 23
2.4.3 独立成分分析方法和实践 28
2.4.4 自动编码器方法和实践 31
2.5 嵌入:改善模型的性能 34
2.5.1 嵌入的应用场景 34
2.5.2 基于PyTorch实现特征提取 35
2.5.3 基于TensorFlow实现特征提取 37
2.5.4 词嵌入深度学习模型Word2Vec 39
2.5.5 词嵌入向量模型GloVe 40
2.6 文本特征提取方法:词袋模型 42
2.6.1 实现词袋模型实践演练 42
2.6.2 词袋模型的限制与改进演练 45
2.7 文本特征提取方法:TF-IDF 47
2.7.1 TF-IDF的概念和计算方式 47
2.7.2 TF-IDF文本特征提取演练 48
2.7.3 TF-IDF与词袋模型的区别 50
第3章 文本分类与情感分析 53
3.1 朴素贝叶斯分类器技术 54
3.1.1 朴素贝叶斯分类器的原理 54
3.1.2 朴素贝叶斯分类器的应用演练 55
3.2 支持向量机技术 57
3.2.1 支持向量机的原理和应用 57
3.2.2 线性SVM与非线性SVM的应用演练 58
3.3 随机森林技术 60
3.3.1 随机森林的原理与特点 60
3.3.2 随机森林的应用演练 61
3.4 卷积神经网络技术 64
3.4.1 卷积神经网络的发展历程 64
3.4.2 卷积神经网络的组成 65
3.4.3 基于卷积神经网络的分类演练 66
3.5 循环神经网络技术 67
3.5.1 循环神经网络的原理 68
3.5.2 文本分类的原理 69
3.5.3 文本分类实践:实现一个歌词生成器模型 70
3.5.4 文本分类实践:实现一个情感分析模型 74
3.6 递归神经网络技术 82
3.6.1 递归神经网络的特点和应用 82
3.6.2 RvNN技术基础与应用演练 82
第4章 语义分析与理解算法 105
4.1 词义表示 106
4.2 语义相似度计算 106
4.2.1 语义相似度的重要性 107
4.2.2 词汇语义相似度的计算方法 107
4.2.3 文本语义相似度的计算方法 110
4.3 命名实体识别 112
4.3.1 命名实体识别介绍 112
4.3.2 基于规则的NER方法 112
4.3.3 基于机器学习的NER方法 114
4.4 语义角色标注 117
4.4.1 语义角色标注介绍 117
4.4.2 基于深度学习的SRL方法 118
4.5 依存分析 120
4.5.1 依存分析介绍 121
4.5.2 依存分析的基本原理 121
4.5.3 依存分析的方法 122
4.5.4 依存分析在自然语言处理中的应用 124
4.6 语法树生成 126
4.6.1 语法树介绍 126
4.6.2 语法树生成的基本原理 127
4.6.3 生成语法树的方法 128
4.6.4 基于上下文无关文法的语法树生成 129
4.7 知识图谱与图数据分析 130
4.7.1 知识图谱的定义和特点 130
4.7.2 知识图谱的构建方法 131
4.7.3 图数据分析的基本原理 133
4.7.4 图数据分析的应用场景 136
第5章 机器翻译算法基础与实践 139
5.1 常见的机器翻译算法和方法 140
5.2 统计机器翻译基础与实践 140
5.2.1 SMT的核心思想与实现步骤 140
5.2.2 常用的SMT模型与实践 141
5.2.3 SMT的训练和解码实践 143
5.3 神经机器翻译基础与实践 146
5.3.1 NMT的特点及工作流程 146
5.3.2 NMT的应用领域 147
5.3.3 NMT的训练和解码 148
5.3.4 基于NMT的简易翻译系统 149
5.4 跨语言情感分析 164
5.4.1 跨语言情感分析介绍 164
5.4.2 跨语言情感分析的挑战 165
5.4.3 跨语言情感分析实践演练 165
第6章 命名实体识别 193
6.1 命名实体识别介绍 194
6.1.1 命名实体识别的任务 194
6.1.2 命名实体识别的应用 194
6.2 基于规则的NER 195
6.2.1 基于规则的NER概述 195
6.2.2 使用SpaCy实现基于规则的NER实战 196
6.3 基于机器学习的NER 204
6.3.1 机器学习在NER中的作用 204
6.3.2 基于scikit-learn的文本处理模型 207
6.4 基于深度学习的NER 217
6.4.1 常用的基于深度学习的NER方法和技术 217
6.4.2 使用SMT模型进行机器翻译 221
第7章 大模型Transformer 239
7.1 Transformer模型介绍 240
7.1.1 Transformer模型的基本概念 240
7.1.2 Transformer模型的优势 241
7.1.3 Transformer的结构 241
7.2 DeepSeek中的Transformer架构 242
7.2.1 DeepSeek介绍 243
7.2.2 多头潜在注意力(MLA) 244
7.2.3 混合专家架构(MoE) 245
7.2.4 Transformer和DeepSeek的性能对比 246
7.3 Transformer实战集锦 247
7.3.1 微调DeepSeek-R1模型 247
7.3.2 语义分割中的Transformer 261
第8章 大模型BERT 283
8.1 BERT介绍 284
8.1.1 BERT模型的基本概念 284
8.1.2 为什么BERT模型被称为大模型 285
8.1.3 BERT模型的基本结构 285
8.1.4 BERT与Transformer的关系 286
8.2 BERT的预训练与微调 286
8.2.1 预训练 287
8.2.2 微调 287
8.3 BERT在各种NLP任务中的应用 291
8.3.1 文本分类中的BERT 292
8.3.2 命名实体识别中的BERT 307
第9章 综合实战:基于大模型的情感分析系统 327
9.1 背景介绍 328
9.2 项目介绍 328
9.3 技术栈 329
9.3.1 大模型技术 329
9.3.2 BERT大模型 329
9.3.3 RoBERTa大模型 330
9.4 模块架构 330
9.5 准备工作 331
9.5.1 遍历数据集目录 331
9.5.2 准备环境 331
9.5.3 绘制混淆矩阵热力图 332
9.6 数据探索 333
9.6.1 数据预处理 333
9.6.2 数据统计 335
9.7 深度清理 337
9.7.1 初步清理 337
9.7.2 训练数据的深度清理 343
9.7.3 测试数据的深度清理 345
9.8 情感列分析 348
9.8.1 情感列的数据探索 348
9.8.2 使用RandomOverSampler进行类别平衡 349
9.8.3 划分训练集、验证集和测试集 349
9.8.4 独热编码 350
9.9 基准模型:朴素贝叶斯分类器 351
9.10 基于BERT大模型的情感分析 352
9.10.1 分词器 352
9.10.2 训练BERT模型并微调 353
9.10.3 测试BERT大模型 355
9.11 基于RoBERTa大模型的情感分析 357
9.11.1 数据编码 357
9.11.2 创建RoBERTa大模型并微调 358
9.11.3 测试RoBERTa大模型 360
9.12 结果分析 362
9.12.1 BERT情感分类报告 362
9.12.2 RoBERTa情感分类报告 362
9.12.3 两种大模型性能的对比可视化 363
|
內容試閱:
|
在当今数字化浪潮席卷的社会中,自然语言处理(NLP)作为人工智能领域的一项关键技术,肩负着解析、理解和生成人类语言的重任。NLP技术的兴起,源于人们对于计算机能够理解和处理人类语言的美好憧憬。经过多年的发展,它已经渗透到我们的日常生活,广泛应用于搜索引擎、虚拟助手、社交媒体分析等诸多领域。
随着信息时代的迅猛发展,NLP技术的需求呈现出持续攀升的态势。企业急需借助NLP技术,从海量的文本数据中精准提取信息,以实现智能决策。而个性化推荐、智能客服、情感分析等应用场景,更是对NLP技术的高效性提出了更高的要求。在这样的背景下,市场对具备NLP技能的专业人才的需求愈发迫切,涵盖了计算机科学领域的学生、研究者,以及广大从业者。这也促使学习和深入研究NLP相关知识的人数不断增加。
本书聚焦Transformer和BERT等大模型,精心选取详实案例,为读者提供实用指南,引领读者探索NLP的前沿理论与实际应用,旨在帮助学者和从业者更深刻地理解和应用NLP技术。本书全面且深入地讲解了从基础理论到实际应用的NLP技术,既能满足学生和研究人员提升专业能力的需求,又能帮助他们掌握解决实际业务问题的关键技能,使其在竞争激烈的市场中脱颖而出。
本书特色
1. 全面覆盖关键主题
本书系统地涵盖了NLP领域的核心主题,包括特征提取、文本分类与情感分析、语义分析与理解算法、机器翻译算法以及大模型Transformer和BERT等。通过学习本书,读者能够系统地了解从NLP基础到前沿技术的全貌。
2. 深度实战案例驱动
每一章均以实际案例为基础,搭配具体的代码示例和实战项目,助力读者深入理解各个NLP主题。这种基于实际案例的学习方式,能让读者将理论知识直接应用于实际问题,有效培养解决实际问题的能力。
3. 大模型深度剖析
书中对Transformer和BERT等大模型进行了深度剖析,不仅详细介绍其基本原理,还深入探讨它们在NLP任务中的具体应用。这有助于读者理解并运用这些最先进的深度学习模型。
4. 全面涵盖实际应用
在介绍NLP理论知识的基础上,本书深入研究了NLP在情感分析、机器翻译、推荐系统等实际应用中的关键技术。读者不仅能掌握理论知识,还能将其应用到实际场景中。
5. 大模型综合实战项目
书中提供了一个大模型综合实战项目,将书中所学知识进行整合。通过构建一个基于大模型的情感分析系统,让读者能够全面运用所学技能,切实解决一个复杂的NLP问题。
6. 提供丰富的配书资源
本书所附配的资源丰富多样,涵盖了书中实例的源代码、PPT课件以及书中案例的全程视频讲解。读者可扫描下方二维码获取源代码和PPT课件,而书中案例的视频讲解,读者可通过扫描书中二维码获取。
本书读者对象
学术研究者:对自然语言处理领域怀有浓厚兴趣,期望深入理解NLP的基础理论和最新技术,以推动相关领域研究的发展。
学生和教育机构教师:计算机科学、人工智能、数据科学等相关专业的本科生、研究生,以及教育机构的教师,希望学习NLP领域的实践知识和技能。
NLP从业者:已经或即将从事自然语言处理工作的人员,希望深化对NLP技术的理解和应用。
NLP技术爱好者和自学者:对人工智能和自然语言处理技术感兴趣的自学者,希望通过系统学习提升自己在这一领域的技能。
致谢
在本书的编写过程中,得到了清华大学出版社编辑的大力支持。正是各位的求实精神、耐心指导和高效工作,才使得本书能够在短时间内顺利出版。此外,也非常感谢家人给予的巨大支持。由于本人水平有限,书中难免存在疏漏之处,恳请广大读者提出宝贵的意见或建议,以便后续修订并使其更加完善。
最后,感谢您购买本书,希望本书能成为您编程路上的领航者,祝您阅读愉快!
|
|