科技
类型
8.6
豆瓣评分
可以朗读
语音朗读
689千字
字数
2013-01-01
发行日期
展开全部
主编推荐语
一部自然语言处理教程。
内容简介
本书全面介绍了统计自然语言处理的基本概念、理论方法和研究进展(截止2012年),内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
目录
- 版权信息
- 序言
- 序一
- 序二
- 第二版前言
- 第一版前言
- 第1章 绪论
- 1.1 基本概念
- 1.1.1 语言学与语音学
- 1.1.2 自然语言处理
- 1.1.3 关于“理解”的标准
- 1.2 自然语言处理研究的内容和面临的困难
- 1.2.1 自然语言处理研究的内容
- 1.2.2 自然语言处理涉及的几个层次
- 1.2.3 自然语言处理面临的困难
- 1.3 自然语言处理的基本方法及其发展
- 1.3.1 自然语言处理的基本方法
- 1.3.2 自然语言处理的发展
- 1.4 自然语言处理的研究现状
- 1.5 本书的内容安排
- 第2章 预备知识
- 2.1 概率论基本概念
- 2.1.1 概率
- 2.1.2 最大似然估计
- 2.1.3 条件概率
- 2.1.4 贝叶斯法则
- 2.1.5 随机变量
- 2.1.6 二项式分布
- 2.1.7 联合概率分布和条件概率分布
- 2.1.8 贝叶斯决策理论
- 2.1.9 期望和方差
- 2.2 信息论基本概念
- 2.2.1 熵
- 2.2.2 联合熵和条件熵
- 2.2.3 互信息
- 2.2.4 相对熵
- 2.2.5 交叉熵
- 2.2.6 困惑度
- 2.2.7 噪声信道模型
- 2.3 支持向量机
- 2.3.1 线性分类
- 2.3.2 线性不可分
- 2.3.3 构造核函数
- 第3章 形式语言与自动机
- 3.1 基本概念
- 3.1.1 图
- 3.1.2 树
- 3.1.3 字符串
- 3.2 形式语言
- 3.2.1 概述
- 3.2.2 形式语法的定义
- 3.2.3 形式语法的类型
- 3.2.4 CFG识别句子的派生树表示
- 3.3 自动机理论
- 3.3.1 有限自动机
- 3.3.2 正则文法与自动机的关系
- 3.3.3 上下文无关文法与下推自动机
- 3.3.4 图灵机
- 3.3.5 线性界限自动机
- 3.4 自动机在自然语言处理中的应用
- 3.4.1 单词拼写检查
- 3.4.2 单词形态分析
- 3.4.3 词性消歧
- 第4章 语料库与语言知识库
- 4.1 语料库技术
- 4.1.1 概述
- 4.1.2 语料库语言学的发展
- 4.1.3 语料库的类型
- 4.1.4 汉语语料库建设中的问题
- 4.1.5 典型语料库介绍
- 4.2 语言知识库
- 4.2.1 WordNet
- 4.2.2 FrameNet
- 4.2.3 EDR
- 4.2.4 北京大学综合型语言知识库
- 4.2.5 知网
- 4.2.6 概念层次网络
- 4.3 语言知识库与本体论
- 第5章 语言模型
- 5.1 n元语法
- 5.2 语言模型性能评价
- 5.3 数据平滑
- 5.3.1 问题的提出
- 5.3.2 加法平滑方法
- 5.3.3 古德-图灵(Good-Turing)估计法
- 5.3.4 Katz平滑方法
- 5.3.5 Jelinek-Mercer平滑方法
- 5.3.6 Witten-Bell平滑方法
- 5.3.7 绝对减值法
- 5.3.8 Kneser-Ney平滑方法
- 5.3.9 算法总结
- 5.4 其他平滑方法
- 5.4.1 Church-Gale平滑方法
- 5.4.2 贝叶斯平滑方法
- 5.4.3 修正的Kneser-Ney平滑方法
- 5.5 平滑方法的比较
- 5.6 语言模型自适应方法
- 5.6.1 基于缓存的语言模型
- 5.6.2 基于混合方法的语言模型
- 5.6.3 基于最大熵的语言模型
- 第6章 概率图模型
- 6.1 概述
- 6.2 贝叶斯网络
- 6.3 马尔可夫模型
- 6.4 隐马尔可夫模型
- 6.4.1 求解观察序列的概率
- 6.4.2 维特比算法
- 6.4.3 HMM的参数估计
- 6.5 层次化的隐马尔可夫模型
- 6.6 马尔可夫网络
- 6.7 最大熵模型
- 6.7.1 最大熵原理
- 6.7.2 最大熵模型的参数训练
- 6.8 最大熵马尔可夫模型
- 6.9 条件随机场
- 第7章 自动分词、命名实体识别与词性标注
- 7.1 汉语自动分词中的基本问题
- 7.1.1 汉语分词规范问题
- 7.1.2 歧义切分问题
- 7.1.3 未登录词问题
- 7.2 汉语分词方法
- 7.2.1 N-最短路径方法
- 7.2.2 基于词的n元语法模型的分词方法
- 7.2.3 由字构词的汉语分词方法
- 7.2.4 基于词感知机算法的汉语分词方法
- 7.2.5 基于字的生成式模型和区分式模型相结合的汉语分词方法
- 7.2.6 其他分词方法
- 7.2.7 分词方法比较
- 7.3 命名实体识别
- 7.3.1 方法概述
- 7.3.2 基于CRF的命名实体识别方法
- 7.3.3 基于多特征的命名实体识别方法
- 7.4 维吾尔语人名识别方法
- 7.5 词性标注
- 7.5.1 概述
- 7.5.2 基于统计模型的词性标注方法
- 7.5.3 基于规则的词性标注方法
- 7.5.4 统计方法与规则方法相结合的词性标注方法
- 7.5.5 词性标注中的生词处理方法
- 7.6 词性标注的一致性检查与自动校对
- 7.6.1 词性标注一致性检查方法
- 7.6.2 词性标注自动校对方法
- 7.7 关于技术评测
- 第8章 句法分析
- 8.1 句法结构分析概述
- 8.1.1 基本概念
- 8.1.2 语法形式化
- 8.1.3 基本方法
- 8.2 基于PCFG的基本分析方法
- 8.2.1 PCFG
- 8.2.2 面向PCFG的内向外向算法
- 8.2.3 选择句子的最佳结构
- 8.2.4 PCFG的概率参数估计
- 8.2.5 分析实例
- 8.3 词汇化的短语结构分析器
- 8.4 非词汇化句法分析器
- 8.5 其他相关研究
- 8.5.1 PCFG方法的改进
- 8.5.2 数据驱动的分析方法
- 8.5.3 语义信息的利用
- 8.6 短语结构分析器性能评价
- 8.6.1 评价指标
- 8.6.2 短语结构分析器性能比较
- 8.7 层次化汉语长句结构分析
- 8.7.1 标点符号在句法分析中的作用
- 8.7.2 层次化汉语长句结构分析的思路
- 8.7.3 汉语标点符号的分类
- 8.7.4 句法规则提取方法
- 8.7.5 HP分析算法
- 8.8 浅层句法分析
- 8.8.1 概述
- 8.8.2 基本名词短语的定义
- 8.8.3 基于SVM的base NP识别方法
- 8.8.4 基于WINNOW的base NP识别方法
- 8.8.5 基于CRF的base NP 识别方法
- 8.9 依存语法理论简介
- 8.10 依存句法分析
- 8.10.1 概述
- 8.10.2 生成式依存分析方法
- 8.10.3 判别式依存分析方法
- 8.10.4 确定性依存分析方法
- 8.10.5 其他相关研究
- 8.10.6 基于序列标注的分层式依存分析方法
- 8.11 依存分析器性能评价
- 8.11.1 评价指标
- 8.11.2 依存分析性能比较
- 8.12 短语结构与依存结构之间的关系
- 第9章 语义分析
- 9.1 词义消歧概述
- 9.2 有监督的词义消歧方法
- 9.2.1 基于互信息的消歧方法
- 9.2.2 基于贝叶斯分类器的消歧方法
- 9.2.3 基于最大熵的词义消歧方法
- 9.3 基于词典的词义消歧方法
- 9.3.1 基于词典语义定义的消歧方法
- 9.3.2 基于义类辞典的消歧方法
- 9.3.3 基于双语词典的消歧方法
- 9.3.4 Yarowsky算法及其相关研究
- 9.4 无监督的词义消歧方法
- 9.5 词义消歧系统评价
- 9.6 语义角色标注概述
- 9.7 语义角色标注基本方法
- 9.7.1 自动语义角色标注的基本流程
- 9.7.2 基于短语结构树的语义角色标注方法
- 9.7.3 基于依存关系树的语义角色标注方法
- 9.7.4 基于语块的语义角色标注方法
- 9.7.5 语义角色标注的融合方法
- 9.8 语义角色标注的领域适应性问题
- 9.9 双语联合语义角色标注方法
- 9.9.1 基本思路
- 9.9.2 系统实现
- 9.9.3 实验
- 第10章 篇章分析
- 10.1 基本概念
- 10.2 基本理论
- 10.2.1 言语行为理论
- 10.2.2 中心理论
- 10.2.3 修辞结构理论
- 10.2.4 脉络理论
- 10.2.5 篇章表示理论
- 10.3 篇章衔接性
- 10.3.1 基于指代消解的衔接性相关研究
- 10.3.2 基于词汇衔接的衔接性相关研究
- 10.4 篇章连贯性
- 10.4.1 基于信息性的连贯性相关研究
- 10.4.1 基于意图性的连贯性相关研究
- 10.5 篇章标注语料库
- 10.6 关于汉语篇章分析
- 第11章 统计机器翻译
- 11.1 机器翻译概述
- 11.1.1 机器翻译的发展
- 11.1.2 机器翻译方法
- 11.1.3 机器翻译研究现状
- 11.2 基于噪声信道模型的统计机器翻译原理
- 1 1.3 IBM的5个翻译模型
- 11.3.1 模型1
- 11.3.2 模型2
- 11.3.3 模型3
- 11.3.4 模型4
- 11.3.5 模型5
- 11.4 基于HMM的词对位模型
- 11.5 基于短语的翻译模型
- 11.5.1 模型演变
- 11.5.2 短语对抽取方法
- 11.6 基于柱搜索的解码算法
- 11.7 基于最大熵的翻译框架
- 11.7.1 模型介绍
- 11.7.2 对位模型与最大近似
- 11.7.3 对位模板
- 11.7.4 特征函数
- 11.7.5 参数训练
- 11.8 基于层次短语的翻译模型
- 11.8.1 概述
- 11.8.2 模型描述
- 11.8.3 参数训练
- 11.8.4 解码方法
- 11.9 树翻译模型
- 11.9.1 树到树的翻译模型
- 11.9.2 树到串的翻译模型
- 11.9.3 串到树的翻译模型
- 11.10 树模型的相关改进
- 11.10.1 源语言句法增强的串到树翻译模型
- 11.10.2 基于无监督树结构的翻译模型
- 11.11 句法模型解码算法
- 11.12 基于谓词论元结构转换的翻译模型
- 1 1.13 各种翻译模型的分析
- 11.14 集外词翻译
- 11.14.1 数字和时间表示的识别与翻译
- 11.14.2 命名实体翻译
- 11.14.3 普通集外词的翻译
- 11.15 统计翻译系统实现
- 11.16 系统融合
- 11.16.1 句子级系统融合
- 11.16.2 短语级系统融合
- 11.16.3 词汇级系统融合
- 11.16.4 构建混淆网络的词对齐方法
- 11.17 译文质量评估方法
- 11.17.1 概述
- 11.17.2 技术指标
- 11.17.3 相关评测
- 11.17.4 有关自动评测方法的评测
- 第12章 语音翻译
- 12.1 语音翻译的基本原理和特点
- 12.1.1 语音翻译的基本原理
- 12.1.2 语音翻译的特点
- 12.2 语音翻译的研究现状
- 12.3 C-STAR、A-STAR和U-STAR
- 12.3.1 C-STAR概况
- 12.3.2 A-STAR和U-STAR
- 12.4 系统与项目介绍
- 12.5 口语翻译方法
- 12.5.1 基于对话行为分析的口语翻译方法
- 12.5.2 基于句子类型的口语翻译方法
- 第13章 文本分类与情感分类
- 13.1 文本分类概述
- 13.2 文本表示
- 13.3 文本特征选择方法
- 13.3.1 基于文档频率的特征提取法
- 13.3.2 信息增益法
- 13.3.3 χ2统计量
- 13.3.4 互信息法
- 13.4 特征权重计算方法
- 13.5 分类器设计
- 13.5.1 朴素贝叶斯分类器
- 13.5.2 基于支持向量机的分类器
- 13.5.3 k-最近邻法
- 13.5.4 基于神经网络的分类器
- 13.5.5 线性最小平方拟合法
- 13.5.6 决策树分类器
- 13.5.7 模糊分类器
- 13.5.8 Rocchio分类器
- 13.5.9 基于投票的分类方法
- 13.6 文本分类性能评测
- 13.6.1 评测指标
- 13.6.2 相关评测
- 13.7 情感分类
- 第14章 信息检索与问答系统
- 14.1 信息检索概要
- 14.1.1 背景概述
- 14.1.2 基本方法和模型
- 14.1.3 倒排索引
- 14.1.4 文档排序
- 14.2 隐含语义标引模型
- 14.2.1 隐含语义标引模型
- 14.2.2 概率隐含语义标引模型
- 14.2.3 弱指导的统计隐含语义标引模型
- 14.3 检索系统评测
- 14.3.1 检索系统评测指标
- 14.3.2 信息检索评测活动
- 14.4 问答系统
- 14.4.1 概述
- 14.4.2 系统构成
- 14.4.3 基本方法
- 14.4.4 QA系统评测
- 第15章 自动文摘与信息抽取
- 15.1 自动文摘技术概要
- 15.2 多文档摘要
- 15.2.1 问题与方法
- 15.2.2 文摘评测
- 15.3 信息抽取
- 15.3.1 概述
- 15.3.2 传统的信息抽取技术
- 15.3.3 开放式信息抽取
- 15.4 情感信息抽取
- 15.5 情感分析技术评测
- 第16章 口语信息处理与人机对话系统
- 16.1 汉语口语现象分析
- 16.1.1 概述
- 16.1.2 口语语言现象分析
- 16.1.3 冗余现象分析
- 16.1.4 重复现象分析
- 16.2 口语句子情感信息分析
- 16.2.1 情感词汇分类
- 16.2.2 口语句子情感信息分析
- 16.3 面向中间表示的口语解析方法
- 16.3.1 概述
- 16.3.2 中间表示格式
- 16.3.3 基于规则和HMM的统计解析方法
- 16.3.4 基于语义决策树的口语解析方法
- 16.4 基于MDP的对话行为识别
- 16.5 基于中间表示的口语生成方法
- 16.5.1 基本思路
- 16.5.2 微观规划器
- 16.5.3 表层生成器
- 16.6 人机对话系统
- 16.6.1 系统组成
- 16.6.2 相关研究
- 参考文献
- 自然语言处理及其相关领域的国际会议
- 名词术语索引
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。