新書推薦:

《
史学视角下的跨文化研究(一): 追踪谱系、轨迹与多样性
》
售價:HK$
104.5

《
历史文本的文化间交织:中国上古历史及其欧洲书写(论衡系列)
》
售價:HK$
118.8

《
1688:第一次现代革命(革命不是新制度推翻旧制度,而是两条现代化道路的殊死斗争!屡获大奖,了解光荣革命可以只看这一本)
》
售價:HK$
217.8

《
东方小熊日本幼儿园思维训练 听力专注力(4册)
》
售價:HK$
88.0

《
粤港澳大湾区世界重要人才中心和创新高地建设
》
售價:HK$
107.8

《
她们登上了太空:第一批NASA女性宇航员成长纪实
》
售價:HK$
107.8

《
当代资本主义日常生活金融化研究
》
售價:HK$
140.8

《
证明的故事:从勾股定理到现代数学
》
售價:HK$
131.8
|
編輯推薦: |
在AI大模型爆发的今天,语音交互已成为智能设备的核心入口。然而,依赖云端计算的语音处理存在延迟、隐私和成本问题,终端智能语音处理技术才是未来!
《终端智能语音处理技术与应用》是业内头部专家集20余年研究、工程实践经验的典范之作,系统阐述了终端智能语音处理的全栈技术,从基础理论到工程实践,帮助读者掌握降噪、波束成形、盲源分离、回声消除、模型量化等核心技术,打造高性能、低延迟的语音交互系统。
为什么选择本书?
? 大模型时代刚需:云端大模型虽强,但端侧语音处理才是实时交互的关键。本书教你如何优化终端语音技术,与云端AI无缝协同。
? 理论 工程全覆盖:不仅深入讲解算法原理(如STFT、MVDR、IVA),还提供完整工具包和训练技巧,直接应用于产品开发。
? 解决实际痛点:针对噪声、混响、多说话人场景,提供可落地的解决方案,提升语音识别和唤醒性能。
? 模型量化与优化:专章讲解无数据量化技术,让深度学习模型在资源受限的终端设备上高效运行。
? 工业级工具包:附赠完整配置参数和示例代码,大幅降低开发门槛,加速项目落地。
|
內容簡介: |
语音是最有效的人机交互方式之一。人工智能与传统语音技术相结合使其在家居、可穿戴、机器人、车载等智能终端设备上得到了普及。终端设备具有低资源、实时性、应用场景复杂多变等特点,对算法提出了更严格的要求。本书介绍了面向端侧设备的若干智能语音处理技术,书中主要采用了传统信号处理与深度学习相结合的方法论,并且介绍了在实际工程应用中的若干心得,适合于理工科高年级本科生、研究生,以及语音领域的工程师阅读。
|
關於作者: |
纳跃跃,博士,毕业于北京交通大学计算机科学与技术专业,2014年在中国科学院声学研究所语言声学与内容理解重点实验室完成博士后工作。目前就职于吉利汽车研究院,主要研究和工作方向包括数字信号处理、机器学习、面向智能终端的语音交互等。王子腾,高级工程师,中国科学院声学研究所获信号与信息处理专业博士学位,曾任职阿里巴巴达摩院语音实验室,现就职于北京欧珀通信有限公司。付强博士,研究员,之江实验室高级研究专家。博士毕业于西安电子科技大学,美国OGI口语中心、爱尔兰Limeirck大学博士后。曾任阿里巴巴达摩院研究员(P10),中科院声学所研究员,并曾创办北京先声互联科技有限公司,后被阿里巴巴全资收购。长期从事语音处理\\机器听觉研究和应用,是国内声学前端处理领域的开拓者,具有丰富的从学术研究到产品量产的产学研一体化经验。
|
目錄:
|
1 终端智能语音处理概述 1
1.1 引言1
1.2 问题和挑战 3
1.3 发展历史概要5
1.4 本书的组织结构8
1.5 本书的适用人群10
1.6 常用表示和符号对照10
1.6.1 默认符号 10
1.6.2 对离散时间序列的表示 11
1.6.3 关于索引序号从0 还是1 开始的说明 12
1.7 关于中英文混写的说明13
1.8 免责声明 14
1.9 本章小结 14
—理论篇—
2 子带滤波 21
2.1 离散傅里叶变换与短时傅里叶变换 22
2.1.1 离散傅里叶变换 22
2.1.2 短时傅里叶变换 23
2.1.3 输出延时26
2.1.4 频谱泄漏 27
2.1.5 时域卷积与频域点积的近似关系 30
2.2 多相滤波器组 32
2.2.1 对频谱泄漏的数学解释32
2.2.2 扇形损失 34
2.2.3 重采样35
2.2.4 多相滤波器组 40
2.3 滤波器设计基础 43
2.4 本章小结45
3 固定波束形成47
3.1 多通道语音增强的基本原理 48
3.1.1 物理解释 48
3.1.2 几何解释50
3.2 远场模型 52
3.3 波束形成及阵列性能评价 56
3.3.1 beampattern 56
3.3.2 directivity index 60
3.3.3 white noise gain 63
3.3.4 effective rank 65
3.4 波束形成算法的求解形式67
3.4.1 superdirective beamforming 68
3.4.2 差分波束形成69
3.5 本章小结72
4 自适应波束形成 74
4.1 递推求平均 75
4.2 典型自适应波束形成算法77
4.2.1 MVDR 算法 78
4.2.2 PMWF 算法82
4.3 共轭对称矩阵求逆 83
4.3.1 1 × 1 和2 × 2 矩阵求逆84
4.3.2 Cholesky 分解84
4.3.3 矩阵求逆引理 87
4.3.4 IQRD 方法 89
4.3.5 误差与稳定性90
4.4 本章小结 93
5 盲源分离 96
5.1 信号模型97
5.1.1 瞬时模型 97
5.1.2 卷积模型 98
5.2 独立成分分析 100
5.2.1 独立性假设与中心极限定理 101
5.2.2 ICA 的目标函数103
5.2.3 AuxICA 算法 107
5.2.4 2 × 2 广义特征分解问题 112
5.2.5 排列歧义性与尺度歧义性 114
5.3 独立向量分析 117
5.3.1 IVA 的目标函数 118
5.3.2 AuxIVA 算法121
5.3.3 两级架构 125
5.4 盲源分离与波束形成的联系和区别 130
5.5 本章小结 132
6 回声消除与去混响136
6.1 信号模型 138
6.1.1 回声消除信号模型 138
6.1.2 去混响信号模型140
6.2 LMS 与NLMS 算法143
6.3 RLS 算法 145
6.3.1 最小二乘法 146
6.3.2 RLS 算法 151
6.4 一种基于盲源分离的回声消除方法155
6.4.1 问题背景 155
6.4.2 算法推导157
6.4.3 对比实验 160
6.5 本章小结 162
7 数据模拟 164
7.1 信号模型和系统框架 165
7.2 传函的模拟与测量167
7.2.1 镜像法传函模拟 167
7.2.2 传函测量 174
7.2.3 分块卷积176
7.3 非线性回声模拟 178
7.4 散射噪声模拟 180
7.5 信噪比和音量 186
7.6 本章小结187
8 深度语音增强 190
8.1 信号模型 192
8.2 时频掩蔽 193
8.3 损失函数 196
8.4 深度回声残余抑制 197
8.4.1 数据准备 198
8.4.2 输入特征 198
8.4.3 模型结构 199
8.5 多通道语音增强模型 200
8.5.1 基于掩蔽的波束形成算法 201
8.5.2 深度神经网络空域滤波算法 202
8.6 歌曲成分分离 203
8.7 本章小结 205
9 语音活动性检测208
9.1 HMMVAD209
9.1.1 HMM 基础210
9.1.2 前向算法与后向算法 213
9.1.3 Viterbi 算法 216
9.1.4 Baum-Welch 算法 219
9.1.5 下溢问题 220
9.1.6 在线HMMVAD222
9.2 NNVAD 225
9.2.1 一种NNVAD 模型 226
9.2.2 一种NN 和HMM 结合的VAD229
9.3 VAD 性能评价 230
9.4 本章小结 232
10 关键词检测 234
10.1 特征提取 235
10.2 声学模型 237
10.2.1 建模单元 237
10.2.2 声学模型 239
10.2.3 关于声学模型工作原理的讨论242
10.3 解码器 247
10.3.1 阈值与动态阈值 249
10.3.2 关于ROC 曲线与阈值选择的讨论 253
10.4 虚警问题 255
10.4.1 对虚警现象的直观解释 255
10.4.2 减少虚警的方法 256
10.4.3 对比实验 258
10.5 多通道关键词检测与通道选择 260
10.5.1 问题背景 260
10.5.2 模型与训练方法 262
10.5.3 实验与分析 263
10.6 本章小结 269
11 联合优化方法 272
11.1 盲源分离统一框架273
11.1.1 信号模型 273
11.1.2 问题拆解 275
11.1.3 对比实验 276
11.2 语音增强与关键词检测联合优化 279
11.2.1 系统框架 280
11.2.2 语音增强模块 282
11.2.3 关键词检测模块 282
11.2.4 实验现象 284
11.3 本章小结 285
12 模型量化 288
12.1 模型量化方法 288
12.1.1 训练后量化 288
12.1.2 训练时量化 290
12.1.3 无数据量化 291
12.2 关键词检测模型的无数据量化方法 292
12.2.1 时序数据生成器 293
12.2.2 中心距离约束与双生成器 293
12.2.3 高质量筛选 295
12.2.4 时间掩码量化蒸馏 296
12.2.5 无数据量化流程 297
12.2.6 无数据量化实验 299
12.3 本章小结 303
—工程篇—
13 终端智能语音处理工具包307
13.1 系统框架 308
13.2 配置参数详解 310
13.2.1 通用参数 310
13.2.2 回声消除 313
13.2.3 去混响 314
13.2.4 多通道语音增强 314
13.2.5 深度语音增强 315
13.2.6 后滤波 316
13.2.7 自动增益控制 316
13.2.8 音量计算 317
13.2.9 声源定位 317
13.2.10 语音活动性检测 318
13.2.11 关键词检测319
13.2.12 命令词检测321
13.2.13 产线测试,模型训练321
13.3 主要离线工具示例322
13.3.1 SoundConnect 离线工具 322
13.3.2 批处理工具 322
13.4 示例程序 323
13.4.1 从配置文件初始化 323
13.4.2 从Params.c 文件初始化 324
13.5 本章小结 326
14 模型训练 327
14.1 数据准备 328
14.1.1 正样本数据 329
14.1.2 负样本和噪声数据 332
14.2 环境配置 333
14.2.1 传函模拟 335
14.2.2 目标语音模拟 336
14.2.3 干扰信号模拟 338
14.2.4 回声模拟 339
14.2.5 噪声模拟 339
14.2.6 音量和增益 340
14.2.7 生成模拟音频 340
14.3 模型训练 342
14.3.1 训练环境 342
14.3.2 训练流程 343
14.3.3 模型训练技巧总结 345
14.4 模型测试 348
14.4.1 测试环境 348
14.4.2 评价指标 349
14.4.3 测试集的录制与准备 350
14.4.4 测试流程 352
14.5 模型发布 355
14.6 本章小结 356
附录A 358
A.1 复数求偏导和共轭偏导 358
A.2 共轭求导示例 359
A.2.1 向量求导 359
A.2.2 二次型求导 360
|
內容試閱:
|
语音是人与人之间最为自然的交互方式,因而也是最有效的人机交互方式之一。自2014 年开始,以Amazon Echo、Google Home、小米音箱、天猫精灵等智能音箱为代表的硬件终端引发了语音应用的热潮,智能语音产品和应用呈爆发式增长。如今,语音功能几乎成为智能产品的标配。越来越多的科学家和工程师投身于语音行业,致力于为人们提供更加自然、便捷的人机交互体验。
完整的语音技术链路极为复杂冗长,其中涉及终端、云端、信号、传输、语义、多模态融合等多种算法和工程技术。作者作为从事语音技术的众多工程师中的一员,主要研究内容涉及面向各种智能家电、可穿戴设备、智能座舱、机器人等终端设备上的语音处理问题。对于终端语音处理而言,首先要解决的便是克服设备回声、噪声干扰、房间混响等不利声学因素对目标语音造成的影响,提升目标语音的信噪比和可懂度,为后续处理流程提供质量更高的信号。除此之外,与云端算法相比,算力、功耗等硬件条件的限制,以及数据处理的实时性要求始终是终端算法必须考虑的问题。另外,不同终端设备的使用场景各异,所面临的问题也不尽相同,所以场景的复杂化和碎片化也是终端语音处理的痛点所在。
作者在多年终端语音处理的工作生涯中,对其中的痛点和难点问题深有体会。对于某些应用来说,现有技术能够在一定程度上,或在某些限制条件下解决或缓解痛点问题,使其达到可以实用的水平。但在一些更为复杂、难度更大的实际问题中,例如,在极低信噪比、更加复杂且动态变化的场景中,现有技术尚不足以实现像人和人之间交流那样更加自然的用户体验。
作者在从事本职工作的同时,也在不断学习新技术,并将其应用于实际工程中。为了达到不断学习、温故而知新的目的,作者萌生出撰写《终端智能语音处理技术与应用》一书的想法。本书深入探讨了面向智能终端设备的语音信号与信息处理技术,结合传统信号处理与深度学习方法,旨在解决家居、可穿戴、机器人及车载等场景中遇到的实际问题。
针对实际工程应用中的关键问题,如噪声抑制、回声消除、房间混响处理等,本书详细讲解了几种重要的算法,包括固定波束形成、自适应波束形成、盲源分离等,并分别讨论了它们的优缺点及应用场景。此外,书中涵盖了基于自适应滤波的回声、混响、干扰联合抑制方法,以及利用深度神经网络进行语音增强、语音活动性检测和关键词检测的技术。为了使模型能够高效地部署于资源受限的终端设备上,本书也涉及模型量化的方法,该方法通过减小模型大小来节约存储空间并降低计算复杂度。
本书不仅提供了理论分析,还分享了作者团队在实际项目中积累的经验。它适合对语音信号和信息处理、人工智能感兴趣的理工科高年级本科生、研究生,以及相关领域的工程师阅读。对于希望深入了解如何将先进的语音处理技术应用于各类智能设备的读者来说,本书也可以提供相应的指导和参考资源。希望这本书能够起到抛砖引玉的作用,促进相关行业的研究者和工程师之间的交流。
在完成这项工作的过程中,有很多同事、同学、朋友给予了作者非常有力的帮助和支持。他们是:马骁、杨智慧、乔刚、薛斌、李瑞、刘礼、刘章、史鹏腾、田彪、姜南、袁斌、王丹。在此感谢他们从软件和硬件上对算法完善、算法性能提升以及计算效率优化等方面提供的有力支持。在本书的编写过程中,尹玉、方向阳、朱磊同学给出了非常有用的意见和建议,并帮忙指出了书中的公式或书写错误,在此向他们表示衷心感谢!
作者
2024 年11 月
|
|