登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書

『簡體書』语音识别:原理与应用(第3版)

書城自編碼: 4098254
分類:簡體書→大陸圖書→計算機/網絡程序設計
作者: 洪青阳 李琳
國際書號(ISBN): 9787121499326
出版社: 电子工业出版社
出版日期: 2025-04-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 130.9

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
米塞斯的经济学课:讲座与演讲精选集
《 米塞斯的经济学课:讲座与演讲精选集 》

售價:HK$ 74.8
人工智能大模型导论 科大讯飞校企合编教材
《 人工智能大模型导论 科大讯飞校企合编教材 》

售價:HK$ 75.9
做财富的朋友:巴菲特慢慢变富的投资智慧
《 做财富的朋友:巴菲特慢慢变富的投资智慧 》

售價:HK$ 82.5
一群数学家分蛋糕:提升逻辑力的100道谜题
《 一群数学家分蛋糕:提升逻辑力的100道谜题 》

售價:HK$ 60.5
无解的困局:大明最后的60年
《 无解的困局:大明最后的60年 》

售價:HK$ 66.0
女校(人气作家孩子帮·鹅随“北番高中”系列代表作!)
《 女校(人气作家孩子帮·鹅随“北番高中”系列代表作!) 》

售價:HK$ 60.5
万历十八年之风起辽东
《 万历十八年之风起辽东 》

售價:HK$ 85.8
实战ANSYS Icepak电子热设计
《 实战ANSYS Icepak电子热设计 》

售價:HK$ 97.9

 

編輯推薦:
√华语原创重磅升级版
√从语音原理到语音大模型,与时俱进的工业实践案头手册
√配合大量彩色插图,兼顾基础理论、关键技术与技术前沿
√更易懂的表达,作者具有丰富高校教学经验,深知学习痛点
√更完善的工程项目,如Kaldi、ESPnet和FunASR、sherpa-onnx等开源工具
√增加Whisper等大模型内容
√配套PPT、部分视频,以及课后作业答案
內容簡介:
本书系统地介绍了语音识别在大模型时代的新技术与新应用。全书共16章,原理部分涵盖声学特征、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、深度神经网络(DNN)、语言模型和加权有限状态转换器(WFST)、语音大模型,重点描述了GMM-HMM、DNN-HMM和端到端(E2E)三种语音识别框架;应用部分包含Kaldi、WeNet、FunASR和sherpa-onnx等工业应用实践介绍,内容主要来自工程经验,极具实用性。
關於作者:
洪青阳,厦门大学人工智能学院教授,主要研究方向是语音识别、声纹识别,先后主持国家自然科学基金三项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领XMUSPEECH团队连续两届获东方语种识别(OLR)竞赛第一名,成功研发闽南语识别与合成系统。具有丰富的工业研发经验,与华为、海思、海信、鼎桥等知名企业合作,承担过大量的智能语音项目,核心技术应用到华为智能手机、说咱闽南话AppPP、声云语音转写和全国十几个省市的司法/社保/证券/电力系统。发布国内第一套声纹识别开源工具ASV-Subtools,助力学术研究和产业落地。担任2020—2021年全国声纹识别研究与应用学术研讨会主席、中文信息学会语音信息专委会副主任等职。获电子工业出版社“优秀作者奖”和华为“优秀技术合作成果奖”。从事本科生、研究生的语音识别教学工作近二十年,从最早的动态时间规整(DTW)、隐马尔可夫模型(HMM)到最新的端到端(E2E)语音识别、大模型框架,与时俱进更新教学内容,积累了丰富的教学经验。

李琳,厦门大学教授,博士生导师,主要研究方向为语音信号处理、声纹识别、智能系统设计,主持国家自然科学基金两项,负责国家科技部重点研发计划项目子课题一项、省级科研项目一项,作为第一合作者参与国家自然基金两项,曾获福建省科技进步奖二等奖、福建省教学成果奖特等奖/二等奖、厦门市科技进步奖一等奖。
目錄
第1章 语音识别概论 1
1.1 语音的产生和感知 1
1.2 语音识别过程 3
1.3 语音识别发展历史 6
1.4 国内语音识别现状 12
1.5 语音识别建模方法 15
1.5.1 DTW 15
1.5.2 GMM-HMM 16
1.5.3 DNN-HMM 17
1.5.4 E2E 模型 18
1.6 语音识别开源工具 18
1.7 常用语音识别数据库 19
1.8 语音识别评价指标 20
参考文献 20

第2章 语音信号基础 24
2.1 声波的特性 24
2.2 声音的接收装置 25
2.2.1 麦克风的性能指标 25
2.2.2 麦克风阵列 26
2.3 声音的采样 27
2.4 声音的量化 28
2.5 语音的编码 30
2.6 WAV 文件格式 33
2.7 WAV 文件分析 34
2.8 本章小结 36
思考练习题 36

第3章 语音特征提取 37
3.1 预处理 37
3.2 短时傅里叶变换 40
3.3 听觉特性 43
3.4 线性预测 45
3.5 倒谱分析 46
3.6 常用的声学特征 47
3.6.1 语谱图 47
3.6.2 FBank 49
3.6.3 MFCC 49
3.6.4 PLP 50
3.7 本章小结 51
思考练习题 52

第4章 HMM 53
4.1 HMM 的基本概念 54
4.1.1 马尔可夫链 55
4.1.2 双重随机过程 56
4.1.3 HMM 的定义 57
4.2 HMM 的三个基本问题 58
4.2.1 模型评估问题 58
4.2.2 最佳路径问题 61
4.2.3 模型训练问题 62
4.3 本章小结 64
参考文献 64
思考练习题 65

第5章 GMM-HMM 66
5.1 概率统计 66
5.2 高斯分布 67
5.3 GMM 70
5.3.1 初始化 70
5.3.2 重估计 71
5.4 GMM 与HMM 的结合 73
5.5 GMM-HMM 的训练 77
5.6 模型自适应 79
5.6.1 MAP 79
5.6.2 MLLR 79
5.6.3 fMLLR 80
5.6.4 SAT 80
5.7 本章小结 80
参考文献 80
思考练习题 81

第6章 基于HMM 的语音识别 82
6.1 建模单元 82
6.2 发音过程与HMM 状态 84
6.3 串接HMM 85
6.4 固定语法的识别 89
6.5 随机语法的识别 93
6.6 音素的上下文建模 99
6.6.1 协同发音 99
6.6.2 上下文建模 100
6.6.3 决策树 101
6.6.4 问题集 102
6.6.5 三音子模型的训练 106
6.7 本章小结 106
思考练习题 107

第7章 DNN-HMM 108
7.1 深度学习 108
7.2 DNN 108
7.2.1 激活函数 109
7.2.2 损失函数 111
7.2.3 梯度下降算法 111
7.3 DNN 与HMM 的结合 113
7.4 不同的DNN 结构 117
7.4.1 CNN 117
7.4.2 LSTM 120
7.4.3 GRU 121
7.4.4 TDNN 122
7.4.5 TDNN-F 124
7.5 本章小结 126
参考文献 127
思考练习题 127

第8章 语言模型 128
8.1 n-gram 模型 129
8.2 评价指标——困惑度 133
8.3 平滑技术 133
8.3.1 Good-Turing折扣法 133
8.3.2 Witten-Bell折扣法 135
8.3.3 Katz 回退法 135
8.3.4 Jelinek-Mercer插值法 138
8.3.5 Kneser-Ney插值法 138
8.4 语言模型的训练 140
8.5 神经网络语言模型 143
8.6 本章小结 145
参考文献 145
思考练习题 146

第9章 WFST 解码器 147
9.1 基于动态网络的Viterbi解码 147
9.2 WFST 理论 151
9.3 HCLG 构建 155
9.3.1 H 的构建 156
9.3.2 C 的构建 157
9.3.3 L 的构建 158
9.3.4 G 的构建 159
9.3.5 HCLG 合并 161
9.4 WFST 的Viterbi 解码 163
9.4.1 Token 的定义 163
9.4.2 Viterbi 算法 163
9.5 Lattice 解码 170
9.5.1 主要数据结构 171
9.5.2 令牌传播过程 171
9.5.3 剪枝策略 174
9.5.4 Lattice 176
9.6 本章小结 177
参考文献 177
思考练习题 177

第10章 Kaldi 训练实例 178
10.1 下载与安装Kaldi 179
10.1.1 获取源代码 179
10.1.2 编译 179
10.2 创建和配置基本的工程目录 180
10.3 aishell 语音识别工程 181
10.3.1 数据集映射目录准备 182
10.3.2 词典准备和lang目录生成 183
10.3.3 语言模型训练 185
10.3.4 声学特征提取与倒谱均值归一化 186
10.3.5 声学模型训练与强制对齐 188
10.3.6 解码测试与指标计算 190
10.4 本章小结 191

第11章 端到端语音识别 192
11.1 CTC 193
11.1.1 损失函数 193
11.1.2 前向算法 196
11.1.3 后向算法 198
11.1.4 求导过程 199
11.1.5 CTC 解码 200
11.2 RNN-T 203
11.3 基于Attention 的Encoder-Decoder 模型 207
11.4 Hybrid CTC/Attention 209
11.5 本章小结 210
参考文献 210
思考练习题 211

第12章 Transformer 结构 212
12.1 模型结构 212
12.2 卷积下采样 213
12.3 位置编码 214
12.4 自注意力机制 215
12.4.1 自注意力 215
12.4.2 多头注意力机制 218
12.5 编码器结构 218
12.5.1 残差连接 219
12.5.2 层归一化 219
12.5.3 前馈层 219
12.6 解码器结构 219
12.6.1 交叉注意力 220
12.6.2 掩蔽注意力 221
12.7 训练和推理 222
12.8 Whisper 实例 223
12.9 本章小结 224
参考文献 224
思考练习题 224

第13章 Conformer 流识别 225
13.1 Conformer 结构 225
13.2 卷积下采样 226
13.3 编码器结构 227
13.3.1 前馈模块 228
13.3.2 多头自注意力模块 228
13.3.3 卷积模块 228
13.4 相对位置编码 231
13.5 流识别机制 233
13.6 本章小结 234
参考文献 234
思考练习题 235

第14章 语音大模型 236
14.1 LLM 236
14.2 音频离散化 238
14.3 语音文本对齐 240
14.4 流式打断 241
14.5 对话大模型 242
14.6 本章小结 244
参考文献 244

第15章 WeNet 实践 246
15.1 数据准备 246
15.1.1 映射文件准备 246
15.1.2 CMVN 计算 246
15.1.3 词典生成 247
15.1.4 数据打包 247
15.2 WeNet 配置文件 247
15.3 声学模型训练 248
15.3.1 声学模型训练脚本 248
15.3.2 Transformer 模型训练 249
15.3.3 Conformer 模型训练 252
15.3.4 Unified Conformer模型训练 252
15.3.5 U2 Conformer模型训练 253
15.4 Python 环境解码 254
15.5 WeNet 模型部署 255
15.5.1 模型导出 255
15.5.2 语言模型训练 255
15.5.3 结合语言模型的解码 256
15.6 WeNet 解码结果可视化 256
15.7 本章小结 257
参考文献 257

第16 章 工业应用实践 258
16.1 应用场景 259
16.2 引擎优化 260
16.2.1 Kaldi 方案 260
16.2.2 WeNet 方案 263
16.2.3 Whisper 微调 264
16.3 工程部署 265
16.3.1 SDK 封装 265
16.3.2 语音云平台 269
16.3.3 Kaldi 嵌入式移植 273
16.3.4 WeNet 端侧部署 275
16.3.5 Paraformer与FunASR部署 276
16.3.6 sherpa-onnx部署 278
16.4 Zipformer 实践 279
16.4.1 Zipformer 279
16.4.2 Transducer流识别 280
16.4.3 icefall训练 283
16.5 本章小结 284
內容試閱
内容架构
第一部分 基础知识
语音识别概论
语音信号基础
语音特征提取

第二部分 模型基础
HMM
GMM-HMM
基于HMM的语音识别
DNN-HMM
语言模型
WFST解码器
Kaldi训练实例
端到端语音识别
Transformer结构
Conformer流识别

第三部分 工程实践
语音大模型
WeNet实践
工业应用实践

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2025 (香港)大書城有限公司  All Rights Reserved.