展开全部

主编推荐语

Kaldi:流行语音识别开源工具包,降低门槛,快速搭建系统。

内容简介

Kaldi是目前语音识别领域,广受欢迎并流行的开源工具包。Kaldi设计之初对通用性,可拓展性等一系列源代码层次的考量,大大降低了Kaldi作为语音识别工具包的门槛,同时拥有非常完整的语音识别系统训练脚本。本书通过对Kaldi已有训练脚本的梳理和引导,帮助读者快速搭建可用的语音识别系统。

目录

  • 封面
  • 书名页
  • 内容简介
  • 版权页
  • 序1
  • 序2
  • 好评来袭
  • 作者简介
  • 前言
  • 目录
  • 1 语音识别技术基础
  • 1.1 语音识别极简史
  • 1.1.1 语音识别早期探索
  • 1.1.2 概率模型一统江湖
  • 1.1.3 神经网络异军突起
  • 1.1.4 商业应用推波助澜
  • 1.2 语音识别系统架构
  • 1.2.1 经典方法的直观理解
  • 1.2.2 概率模型
  • 1.2.3 端到端语音识别
  • 1.3 一些其他细节
  • 1.3.1 语音信号处理
  • 1.3.2 发音和语言学
  • 1.3.3 语音识别系统的评价
  • 2 Kaldi概要介绍
  • 2.1 发展历史
  • 2.1.1 名字的由来
  • 2.1.2 约翰霍普金斯大学夏季研讨会
  • 2.1.3 Kaldi发展简史
  • 2.2 设计思想
  • 2.2.1 初衷
  • 2.2.2 开源
  • 2.2.3 训练脚本
  • 2.3 安装
  • 2.3.1 下载Kaldi代码
  • 2.3.2 安装CUDA
  • 2.3.3 安装编译依赖库
  • 2.3.4 安装第三方工具
  • 2.3.5 选择其他的矩阵库
  • 2.3.6 编译Kaldi代码
  • 2.3.7 配置并行环境
  • 2.4 一个简单的示例
  • 2.4.1 运行run.sh
  • 2.4.2 脚本解析
  • 2.5 示例介绍
  • 2.5.1 数据示例
  • 2.5.2 竞赛示例
  • 2.5.3 其他示例
  • 2.5.4 示例结构
  • 3 数据整理
  • 3.1 数据分集
  • 3.1.1 Librispeech示例的数据处理过程
  • 3.1.2 数据下载和解压
  • 3.2 数据预处理
  • 3.2.1 环境检查
  • 3.2.2 生成表单文件
  • 3.2.3 数据检查
  • 3.3 输入和输出机制
  • 3.3.1 列表表单
  • 3.3.2 存档表单
  • 3.3.3 读写声明符
  • 3.3.4 表单属性
  • 3.4 常用数据表单与处理脚本
  • 3.4.1 列表类数据表单
  • 3.4.2 存档类数据表单
  • 3.4.3 数据文件夹处理脚本
  • 3.4.4 表单索引的一致性
  • 3.5 语言模型相关文件
  • 3.5.1 发音词典与音素集
  • 3.5.2 语言文件夹
  • 3.5.3 生成与使用语言文件夹
  • 4 经典声学建模技术
  • 4.1 特征提取
  • 4.1.1 用 Kaldi 提取声学特征
  • 4.1.2 特征在 Kaldi 中的存储
  • 4.1.3 特征的使用
  • 4.1.4 常用特征类型
  • 4.2 单音子模型的训练
  • 4.2.1 声学模型的基本概念
  • 4.2.2 将声学模型用于语音识别
  • 4.2.3 模型初始化
  • 4.2.4 对齐
  • 4.2.5 Transition 模型
  • 4.2.6 GMM 模型的迭代
  • 4.3 三音子模型训练
  • 4.3.1 单音子模型假设的问题
  • 4.3.2 上下文相关的声学模型
  • 4.3.3 三音子的聚类裁剪
  • 4.3.4 Kaldi中的三音子模型训练流程
  • 4.4 特征变换技术
  • 4.4.1 无监督特征变换
  • 4.4.2 有监督特征变换
  • 4.5 区分性训练
  • 4.5.1 声学模型训练流程的变迁
  • 4.5.2 区分性目标函数
  • 4.5.3 分子、分母
  • 4.5.4 区分性训练在实践中的应用
  • 5 构图和解码
  • 5.1 N元文法语言模型
  • 5.2 加权有限状态转录机
  • 5.2.1 概述
  • 5.2.2 OpenFst
  • 5.3 用WFST表示语言模型
  • 5.4 状态图的构建
  • 5.4.1 用 WFST 表示发音词典
  • 5.4.2 WFST 的复合运算
  • 5.4.3 词图的按发音展开
  • 5.4.4 LG 图对上下文展开
  • 5.4.5 用 WFST 表示 HMM 拓扑结构
  • 5.5 图的结构优化
  • 5.5.1 确定化
  • 5.5.2 最小化
  • 5.5.3 图的stochastic性质
  • 5.6 最终状态图的生成
  • 5.7 基于令牌传递的维特比搜索
  • 5.8 SimpleDecoder源码分析
  • 5.9 Kaldi 解码器家族
  • 5.10 带词网格生成的解码
  • 5.11 用语言模型重打分提升识别率
  • 6 深度学习声学建模技术
  • 6.1 基于神经网络的声学模型
  • 6.1.1 神经网络基础
  • 6.1.2 激活函数
  • 6.1.3 参数更新
  • 6.2 神经网络在Kaldi中的实现
  • 6.2.1 nnet1(nnet)
  • 6.2.2 nnet2
  • 6.2.3 nnet3
  • 6.3 神经网络模型训练
  • 6.3.1 输入特征的处理
  • 6.3.2 神经网络的初始化
  • 6.3.3 训练样本的分批与随机化
  • 6.3.4 学习率的调整
  • 6.3.5 并行训练
  • 6.3.6 数据扩充
  • 6.4 神经网络的区分性训练
  • 6.4.1 区分性训练的基本思想
  • 6.4.2 区分性训练的目标函数
  • 6.4.3 区分性训练的实用技巧
  • 6.4.4 Kaldi神经网络区分性训练示例
  • 6.4.5 chain模型
  • 6.5 与其他深度学习框架的结合
  • 6.5.1 声学模型
  • 6.5.2 语言模型
  • 6.5.3 端到端语音识别
  • 7 关键词搜索与语音唤醒
  • 7.1 关键词搜索技术介绍
  • 7.1.1 关键词搜索技术的主流方法
  • 7.1.2 关键词搜索技术的主流应用
  • 7.2 语音检索
  • 7.2.1 方法描述
  • 7.2.2 一个简单的语音检索系统
  • 7.2.3 集外词处理之词表扩展
  • 7.2.4 集外词处理之关键词扩展
  • 7.2.5 集外词处理之音素/音节系统
  • 7.2.6 一个实用的语音检索系统
  • 7.3 语音唤醒
  • 7.3.1 语音唤醒经典框架
  • 7.3.2 语音唤醒进阶优化
  • 7.3.3 语音唤醒的Kaldi实现思路
  • 8 说话人识别
  • 8.1 概述
  • 8.2 基于i-vector和PLDA的说话人识别技术
  • 8.2.1 整体流程
  • 8.2.2 i-vector 的提取
  • 8.2.3 基于余弦距离对 i-vector 分类
  • 8.2.4 基于 PLDA 对 i-vector 分类
  • 8.3 基于深度学习的说话人识别技术
  • 8.3.1 概述
  • 8.3.2 x-vector
  • 8.3.3 基于 x-vector 的说话人识别示例
  • 8.4 语种识别
  • 9 语音识别应用实践
  • 9.1 语音识别基本应用
  • 9.1.1 离线语音识别与实时在线语音识别
  • 9.1.2 语音识别应用模块
  • 9.1.3 小结
  • 9.2 话音检测模块
  • 9.2.1 VAD算法
  • 9.2.2 离线VAD
  • 9.2.3 流式在线VAD
  • 9.3 模型的适应
  • 9.3.1 声学模型的适应
  • 9.3.2 词表的扩展
  • 9.3.3 语言模型的适应
  • 9.3.4 小结
  • 9.4 解码器的选择及扩展
  • 9.4.1 Kaldi中的解码器
  • 9.4.2 实际应用中的常见问题及扩展
  • 9.4.3 小结
  • 附录A 术语列表
  • 附录B 常见问题解答
  • 参考文献
  • 封底
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。