豆瓣高分
类型
9.1
豆瓣评分
可以朗读
语音朗读
186千字
字数
2020-04-01
发行日期
展开全部
主编推荐语
Kaldi:流行语音识别开源工具包,降低门槛,快速搭建系统。
内容简介
Kaldi是目前语音识别领域,广受欢迎并流行的开源工具包。Kaldi设计之初对通用性,可拓展性等一系列源代码层次的考量,大大降低了Kaldi作为语音识别工具包的门槛,同时拥有非常完整的语音识别系统训练脚本。本书通过对Kaldi已有训练脚本的梳理和引导,帮助读者快速搭建可用的语音识别系统。
目录
- 封面
- 书名页
- 内容简介
- 版权页
- 序1
- 序2
- 好评来袭
- 作者简介
- 前言
- 目录
- 1 语音识别技术基础
- 1.1 语音识别极简史
- 1.1.1 语音识别早期探索
- 1.1.2 概率模型一统江湖
- 1.1.3 神经网络异军突起
- 1.1.4 商业应用推波助澜
- 1.2 语音识别系统架构
- 1.2.1 经典方法的直观理解
- 1.2.2 概率模型
- 1.2.3 端到端语音识别
- 1.3 一些其他细节
- 1.3.1 语音信号处理
- 1.3.2 发音和语言学
- 1.3.3 语音识别系统的评价
- 2 Kaldi概要介绍
- 2.1 发展历史
- 2.1.1 名字的由来
- 2.1.2 约翰霍普金斯大学夏季研讨会
- 2.1.3 Kaldi发展简史
- 2.2 设计思想
- 2.2.1 初衷
- 2.2.2 开源
- 2.2.3 训练脚本
- 2.3 安装
- 2.3.1 下载Kaldi代码
- 2.3.2 安装CUDA
- 2.3.3 安装编译依赖库
- 2.3.4 安装第三方工具
- 2.3.5 选择其他的矩阵库
- 2.3.6 编译Kaldi代码
- 2.3.7 配置并行环境
- 2.4 一个简单的示例
- 2.4.1 运行run.sh
- 2.4.2 脚本解析
- 2.5 示例介绍
- 2.5.1 数据示例
- 2.5.2 竞赛示例
- 2.5.3 其他示例
- 2.5.4 示例结构
- 3 数据整理
- 3.1 数据分集
- 3.1.1 Librispeech示例的数据处理过程
- 3.1.2 数据下载和解压
- 3.2 数据预处理
- 3.2.1 环境检查
- 3.2.2 生成表单文件
- 3.2.3 数据检查
- 3.3 输入和输出机制
- 3.3.1 列表表单
- 3.3.2 存档表单
- 3.3.3 读写声明符
- 3.3.4 表单属性
- 3.4 常用数据表单与处理脚本
- 3.4.1 列表类数据表单
- 3.4.2 存档类数据表单
- 3.4.3 数据文件夹处理脚本
- 3.4.4 表单索引的一致性
- 3.5 语言模型相关文件
- 3.5.1 发音词典与音素集
- 3.5.2 语言文件夹
- 3.5.3 生成与使用语言文件夹
- 4 经典声学建模技术
- 4.1 特征提取
- 4.1.1 用 Kaldi 提取声学特征
- 4.1.2 特征在 Kaldi 中的存储
- 4.1.3 特征的使用
- 4.1.4 常用特征类型
- 4.2 单音子模型的训练
- 4.2.1 声学模型的基本概念
- 4.2.2 将声学模型用于语音识别
- 4.2.3 模型初始化
- 4.2.4 对齐
- 4.2.5 Transition 模型
- 4.2.6 GMM 模型的迭代
- 4.3 三音子模型训练
- 4.3.1 单音子模型假设的问题
- 4.3.2 上下文相关的声学模型
- 4.3.3 三音子的聚类裁剪
- 4.3.4 Kaldi中的三音子模型训练流程
- 4.4 特征变换技术
- 4.4.1 无监督特征变换
- 4.4.2 有监督特征变换
- 4.5 区分性训练
- 4.5.1 声学模型训练流程的变迁
- 4.5.2 区分性目标函数
- 4.5.3 分子、分母
- 4.5.4 区分性训练在实践中的应用
- 5 构图和解码
- 5.1 N元文法语言模型
- 5.2 加权有限状态转录机
- 5.2.1 概述
- 5.2.2 OpenFst
- 5.3 用WFST表示语言模型
- 5.4 状态图的构建
- 5.4.1 用 WFST 表示发音词典
- 5.4.2 WFST 的复合运算
- 5.4.3 词图的按发音展开
- 5.4.4 LG 图对上下文展开
- 5.4.5 用 WFST 表示 HMM 拓扑结构
- 5.5 图的结构优化
- 5.5.1 确定化
- 5.5.2 最小化
- 5.5.3 图的stochastic性质
- 5.6 最终状态图的生成
- 5.7 基于令牌传递的维特比搜索
- 5.8 SimpleDecoder源码分析
- 5.9 Kaldi 解码器家族
- 5.10 带词网格生成的解码
- 5.11 用语言模型重打分提升识别率
- 6 深度学习声学建模技术
- 6.1 基于神经网络的声学模型
- 6.1.1 神经网络基础
- 6.1.2 激活函数
- 6.1.3 参数更新
- 6.2 神经网络在Kaldi中的实现
- 6.2.1 nnet1(nnet)
- 6.2.2 nnet2
- 6.2.3 nnet3
- 6.3 神经网络模型训练
- 6.3.1 输入特征的处理
- 6.3.2 神经网络的初始化
- 6.3.3 训练样本的分批与随机化
- 6.3.4 学习率的调整
- 6.3.5 并行训练
- 6.3.6 数据扩充
- 6.4 神经网络的区分性训练
- 6.4.1 区分性训练的基本思想
- 6.4.2 区分性训练的目标函数
- 6.4.3 区分性训练的实用技巧
- 6.4.4 Kaldi神经网络区分性训练示例
- 6.4.5 chain模型
- 6.5 与其他深度学习框架的结合
- 6.5.1 声学模型
- 6.5.2 语言模型
- 6.5.3 端到端语音识别
- 7 关键词搜索与语音唤醒
- 7.1 关键词搜索技术介绍
- 7.1.1 关键词搜索技术的主流方法
- 7.1.2 关键词搜索技术的主流应用
- 7.2 语音检索
- 7.2.1 方法描述
- 7.2.2 一个简单的语音检索系统
- 7.2.3 集外词处理之词表扩展
- 7.2.4 集外词处理之关键词扩展
- 7.2.5 集外词处理之音素/音节系统
- 7.2.6 一个实用的语音检索系统
- 7.3 语音唤醒
- 7.3.1 语音唤醒经典框架
- 7.3.2 语音唤醒进阶优化
- 7.3.3 语音唤醒的Kaldi实现思路
- 8 说话人识别
- 8.1 概述
- 8.2 基于i-vector和PLDA的说话人识别技术
- 8.2.1 整体流程
- 8.2.2 i-vector 的提取
- 8.2.3 基于余弦距离对 i-vector 分类
- 8.2.4 基于 PLDA 对 i-vector 分类
- 8.3 基于深度学习的说话人识别技术
- 8.3.1 概述
- 8.3.2 x-vector
- 8.3.3 基于 x-vector 的说话人识别示例
- 8.4 语种识别
- 9 语音识别应用实践
- 9.1 语音识别基本应用
- 9.1.1 离线语音识别与实时在线语音识别
- 9.1.2 语音识别应用模块
- 9.1.3 小结
- 9.2 话音检测模块
- 9.2.1 VAD算法
- 9.2.2 离线VAD
- 9.2.3 流式在线VAD
- 9.3 模型的适应
- 9.3.1 声学模型的适应
- 9.3.2 词表的扩展
- 9.3.3 语言模型的适应
- 9.3.4 小结
- 9.4 解码器的选择及扩展
- 9.4.1 Kaldi中的解码器
- 9.4.2 实际应用中的常见问题及扩展
- 9.4.3 小结
- 附录A 术语列表
- 附录B 常见问题解答
- 参考文献
- 封底
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。