展开全部

主编推荐语

一部自然语言处理教程。

内容简介

本书全面介绍了统计自然语言处理的基本概念、理论方法和研究进展(截止2012年),内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。

目录

  • 版权信息
  • 序言
  • 序一
  • 序二
  • 第二版前言
  • 第一版前言
  • 第1章 绪论
  • 1.1 基本概念
  • 1.1.1 语言学与语音学
  • 1.1.2 自然语言处理
  • 1.1.3 关于“理解”的标准
  • 1.2 自然语言处理研究的内容和面临的困难
  • 1.2.1 自然语言处理研究的内容
  • 1.2.2 自然语言处理涉及的几个层次
  • 1.2.3 自然语言处理面临的困难
  • 1.3 自然语言处理的基本方法及其发展
  • 1.3.1 自然语言处理的基本方法
  • 1.3.2 自然语言处理的发展
  • 1.4 自然语言处理的研究现状
  • 1.5 本书的内容安排
  • 第2章 预备知识
  • 2.1 概率论基本概念
  • 2.1.1 概率
  • 2.1.2 最大似然估计
  • 2.1.3 条件概率
  • 2.1.4 贝叶斯法则
  • 2.1.5 随机变量
  • 2.1.6 二项式分布
  • 2.1.7 联合概率分布和条件概率分布
  • 2.1.8 贝叶斯决策理论
  • 2.1.9 期望和方差
  • 2.2 信息论基本概念
  • 2.2.1 熵
  • 2.2.2 联合熵和条件熵
  • 2.2.3 互信息
  • 2.2.4 相对熵
  • 2.2.5 交叉熵
  • 2.2.6 困惑度
  • 2.2.7 噪声信道模型
  • 2.3 支持向量机
  • 2.3.1 线性分类
  • 2.3.2 线性不可分
  • 2.3.3 构造核函数
  • 第3章 形式语言与自动机
  • 3.1 基本概念
  • 3.1.1 图
  • 3.1.2 树
  • 3.1.3 字符串
  • 3.2 形式语言
  • 3.2.1 概述
  • 3.2.2 形式语法的定义
  • 3.2.3 形式语法的类型
  • 3.2.4 CFG识别句子的派生树表示
  • 3.3 自动机理论
  • 3.3.1 有限自动机
  • 3.3.2 正则文法与自动机的关系
  • 3.3.3 上下文无关文法与下推自动机
  • 3.3.4 图灵机
  • 3.3.5 线性界限自动机
  • 3.4 自动机在自然语言处理中的应用
  • 3.4.1 单词拼写检查
  • 3.4.2 单词形态分析
  • 3.4.3 词性消歧
  • 第4章 语料库与语言知识库
  • 4.1 语料库技术
  • 4.1.1 概述
  • 4.1.2 语料库语言学的发展
  • 4.1.3 语料库的类型
  • 4.1.4 汉语语料库建设中的问题
  • 4.1.5 典型语料库介绍
  • 4.2 语言知识库
  • 4.2.1 WordNet
  • 4.2.2 FrameNet
  • 4.2.3 EDR
  • 4.2.4 北京大学综合型语言知识库
  • 4.2.5 知网
  • 4.2.6 概念层次网络
  • 4.3 语言知识库与本体论
  • 第5章 语言模型
  • 5.1 n元语法
  • 5.2 语言模型性能评价
  • 5.3 数据平滑
  • 5.3.1 问题的提出
  • 5.3.2 加法平滑方法
  • 5.3.3 古德-图灵(Good-Turing)估计法
  • 5.3.4 Katz平滑方法
  • 5.3.5 Jelinek-Mercer平滑方法
  • 5.3.6 Witten-Bell平滑方法
  • 5.3.7 绝对减值法
  • 5.3.8 Kneser-Ney平滑方法
  • 5.3.9 算法总结
  • 5.4 其他平滑方法
  • 5.4.1 Church-Gale平滑方法
  • 5.4.2 贝叶斯平滑方法
  • 5.4.3 修正的Kneser-Ney平滑方法
  • 5.5 平滑方法的比较
  • 5.6 语言模型自适应方法
  • 5.6.1 基于缓存的语言模型
  • 5.6.2 基于混合方法的语言模型
  • 5.6.3 基于最大熵的语言模型
  • 第6章 概率图模型
  • 6.1 概述
  • 6.2 贝叶斯网络
  • 6.3 马尔可夫模型
  • 6.4 隐马尔可夫模型
  • 6.4.1 求解观察序列的概率
  • 6.4.2 维特比算法
  • 6.4.3 HMM的参数估计
  • 6.5 层次化的隐马尔可夫模型
  • 6.6 马尔可夫网络
  • 6.7 最大熵模型
  • 6.7.1 最大熵原理
  • 6.7.2 最大熵模型的参数训练
  • 6.8 最大熵马尔可夫模型
  • 6.9 条件随机场
  • 第7章 自动分词、命名实体识别与词性标注
  • 7.1 汉语自动分词中的基本问题
  • 7.1.1 汉语分词规范问题
  • 7.1.2 歧义切分问题
  • 7.1.3 未登录词问题
  • 7.2 汉语分词方法
  • 7.2.1 N-最短路径方法
  • 7.2.2 基于词的n元语法模型的分词方法
  • 7.2.3 由字构词的汉语分词方法
  • 7.2.4 基于词感知机算法的汉语分词方法
  • 7.2.5 基于字的生成式模型和区分式模型相结合的汉语分词方法
  • 7.2.6 其他分词方法
  • 7.2.7 分词方法比较
  • 7.3 命名实体识别
  • 7.3.1 方法概述
  • 7.3.2 基于CRF的命名实体识别方法
  • 7.3.3 基于多特征的命名实体识别方法
  • 7.4 维吾尔语人名识别方法
  • 7.5 词性标注
  • 7.5.1 概述
  • 7.5.2 基于统计模型的词性标注方法
  • 7.5.3 基于规则的词性标注方法
  • 7.5.4 统计方法与规则方法相结合的词性标注方法
  • 7.5.5 词性标注中的生词处理方法
  • 7.6 词性标注的一致性检查与自动校对
  • 7.6.1 词性标注一致性检查方法
  • 7.6.2 词性标注自动校对方法
  • 7.7 关于技术评测
  • 第8章 句法分析
  • 8.1 句法结构分析概述
  • 8.1.1 基本概念
  • 8.1.2 语法形式化
  • 8.1.3 基本方法
  • 8.2 基于PCFG的基本分析方法
  • 8.2.1 PCFG
  • 8.2.2 面向PCFG的内向外向算法
  • 8.2.3 选择句子的最佳结构
  • 8.2.4 PCFG的概率参数估计
  • 8.2.5 分析实例
  • 8.3 词汇化的短语结构分析器
  • 8.4 非词汇化句法分析器
  • 8.5 其他相关研究
  • 8.5.1 PCFG方法的改进
  • 8.5.2 数据驱动的分析方法
  • 8.5.3 语义信息的利用
  • 8.6 短语结构分析器性能评价
  • 8.6.1 评价指标
  • 8.6.2 短语结构分析器性能比较
  • 8.7 层次化汉语长句结构分析
  • 8.7.1 标点符号在句法分析中的作用
  • 8.7.2 层次化汉语长句结构分析的思路
  • 8.7.3 汉语标点符号的分类
  • 8.7.4 句法规则提取方法
  • 8.7.5 HP分析算法
  • 8.8 浅层句法分析
  • 8.8.1 概述
  • 8.8.2 基本名词短语的定义
  • 8.8.3 基于SVM的base NP识别方法
  • 8.8.4 基于WINNOW的base NP识别方法
  • 8.8.5 基于CRF的base NP 识别方法
  • 8.9 依存语法理论简介
  • 8.10 依存句法分析
  • 8.10.1 概述
  • 8.10.2 生成式依存分析方法
  • 8.10.3 判别式依存分析方法
  • 8.10.4 确定性依存分析方法
  • 8.10.5 其他相关研究
  • 8.10.6 基于序列标注的分层式依存分析方法
  • 8.11 依存分析器性能评价
  • 8.11.1 评价指标
  • 8.11.2 依存分析性能比较
  • 8.12 短语结构与依存结构之间的关系
  • 第9章 语义分析
  • 9.1 词义消歧概述
  • 9.2 有监督的词义消歧方法
  • 9.2.1 基于互信息的消歧方法
  • 9.2.2 基于贝叶斯分类器的消歧方法
  • 9.2.3 基于最大熵的词义消歧方法
  • 9.3 基于词典的词义消歧方法
  • 9.3.1 基于词典语义定义的消歧方法
  • 9.3.2 基于义类辞典的消歧方法
  • 9.3.3 基于双语词典的消歧方法
  • 9.3.4 Yarowsky算法及其相关研究
  • 9.4 无监督的词义消歧方法
  • 9.5 词义消歧系统评价
  • 9.6 语义角色标注概述
  • 9.7 语义角色标注基本方法
  • 9.7.1 自动语义角色标注的基本流程
  • 9.7.2 基于短语结构树的语义角色标注方法
  • 9.7.3 基于依存关系树的语义角色标注方法
  • 9.7.4 基于语块的语义角色标注方法
  • 9.7.5 语义角色标注的融合方法
  • 9.8 语义角色标注的领域适应性问题
  • 9.9 双语联合语义角色标注方法
  • 9.9.1 基本思路
  • 9.9.2 系统实现
  • 9.9.3 实验
  • 第10章 篇章分析
  • 10.1 基本概念
  • 10.2 基本理论
  • 10.2.1 言语行为理论
  • 10.2.2 中心理论
  • 10.2.3 修辞结构理论
  • 10.2.4 脉络理论
  • 10.2.5 篇章表示理论
  • 10.3 篇章衔接性
  • 10.3.1 基于指代消解的衔接性相关研究
  • 10.3.2 基于词汇衔接的衔接性相关研究
  • 10.4 篇章连贯性
  • 10.4.1 基于信息性的连贯性相关研究
  • 10.4.1 基于意图性的连贯性相关研究
  • 10.5 篇章标注语料库
  • 10.6 关于汉语篇章分析
  • 第11章 统计机器翻译
  • 11.1 机器翻译概述
  • 11.1.1 机器翻译的发展
  • 11.1.2 机器翻译方法
  • 11.1.3 机器翻译研究现状
  • 11.2 基于噪声信道模型的统计机器翻译原理
  • 1 1.3 IBM的5个翻译模型
  • 11.3.1 模型1
  • 11.3.2 模型2
  • 11.3.3 模型3
  • 11.3.4 模型4
  • 11.3.5 模型5
  • 11.4 基于HMM的词对位模型
  • 11.5 基于短语的翻译模型
  • 11.5.1 模型演变
  • 11.5.2 短语对抽取方法
  • 11.6 基于柱搜索的解码算法
  • 11.7 基于最大熵的翻译框架
  • 11.7.1 模型介绍
  • 11.7.2 对位模型与最大近似
  • 11.7.3 对位模板
  • 11.7.4 特征函数
  • 11.7.5 参数训练
  • 11.8 基于层次短语的翻译模型
  • 11.8.1 概述
  • 11.8.2 模型描述
  • 11.8.3 参数训练
  • 11.8.4 解码方法
  • 11.9 树翻译模型
  • 11.9.1 树到树的翻译模型
  • 11.9.2 树到串的翻译模型
  • 11.9.3 串到树的翻译模型
  • 11.10 树模型的相关改进
  • 11.10.1 源语言句法增强的串到树翻译模型
  • 11.10.2 基于无监督树结构的翻译模型
  • 11.11 句法模型解码算法
  • 11.12 基于谓词论元结构转换的翻译模型
  • 1 1.13 各种翻译模型的分析
  • 11.14 集外词翻译
  • 11.14.1 数字和时间表示的识别与翻译
  • 11.14.2 命名实体翻译
  • 11.14.3 普通集外词的翻译
  • 11.15 统计翻译系统实现
  • 11.16 系统融合
  • 11.16.1 句子级系统融合
  • 11.16.2 短语级系统融合
  • 11.16.3 词汇级系统融合
  • 11.16.4 构建混淆网络的词对齐方法
  • 11.17 译文质量评估方法
  • 11.17.1 概述
  • 11.17.2 技术指标
  • 11.17.3 相关评测
  • 11.17.4 有关自动评测方法的评测
  • 第12章 语音翻译
  • 12.1 语音翻译的基本原理和特点
  • 12.1.1 语音翻译的基本原理
  • 12.1.2 语音翻译的特点
  • 12.2 语音翻译的研究现状
  • 12.3 C-STAR、A-STAR和U-STAR
  • 12.3.1 C-STAR概况
  • 12.3.2 A-STAR和U-STAR
  • 12.4 系统与项目介绍
  • 12.5 口语翻译方法
  • 12.5.1 基于对话行为分析的口语翻译方法
  • 12.5.2 基于句子类型的口语翻译方法
  • 第13章 文本分类与情感分类
  • 13.1 文本分类概述
  • 13.2 文本表示
  • 13.3 文本特征选择方法
  • 13.3.1 基于文档频率的特征提取法
  • 13.3.2 信息增益法
  • 13.3.3 χ2统计量
  • 13.3.4 互信息法
  • 13.4 特征权重计算方法
  • 13.5 分类器设计
  • 13.5.1 朴素贝叶斯分类器
  • 13.5.2 基于支持向量机的分类器
  • 13.5.3 k-最近邻法
  • 13.5.4 基于神经网络的分类器
  • 13.5.5 线性最小平方拟合法
  • 13.5.6 决策树分类器
  • 13.5.7 模糊分类器
  • 13.5.8 Rocchio分类器
  • 13.5.9 基于投票的分类方法
  • 13.6 文本分类性能评测
  • 13.6.1 评测指标
  • 13.6.2 相关评测
  • 13.7 情感分类
  • 第14章 信息检索与问答系统
  • 14.1 信息检索概要
  • 14.1.1 背景概述
  • 14.1.2 基本方法和模型
  • 14.1.3 倒排索引
  • 14.1.4 文档排序
  • 14.2 隐含语义标引模型
  • 14.2.1 隐含语义标引模型
  • 14.2.2 概率隐含语义标引模型
  • 14.2.3 弱指导的统计隐含语义标引模型
  • 14.3 检索系统评测
  • 14.3.1 检索系统评测指标
  • 14.3.2 信息检索评测活动
  • 14.4 问答系统
  • 14.4.1 概述
  • 14.4.2 系统构成
  • 14.4.3 基本方法
  • 14.4.4 QA系统评测
  • 第15章 自动文摘与信息抽取
  • 15.1 自动文摘技术概要
  • 15.2 多文档摘要
  • 15.2.1 问题与方法
  • 15.2.2 文摘评测
  • 15.3 信息抽取
  • 15.3.1 概述
  • 15.3.2 传统的信息抽取技术
  • 15.3.3 开放式信息抽取
  • 15.4 情感信息抽取
  • 15.5 情感分析技术评测
  • 第16章 口语信息处理与人机对话系统
  • 16.1 汉语口语现象分析
  • 16.1.1 概述
  • 16.1.2 口语语言现象分析
  • 16.1.3 冗余现象分析
  • 16.1.4 重复现象分析
  • 16.2 口语句子情感信息分析
  • 16.2.1 情感词汇分类
  • 16.2.2 口语句子情感信息分析
  • 16.3 面向中间表示的口语解析方法
  • 16.3.1 概述
  • 16.3.2 中间表示格式
  • 16.3.3 基于规则和HMM的统计解析方法
  • 16.3.4 基于语义决策树的口语解析方法
  • 16.4 基于MDP的对话行为识别
  • 16.5 基于中间表示的口语生成方法
  • 16.5.1 基本思路
  • 16.5.2 微观规划器
  • 16.5.3 表层生成器
  • 16.6 人机对话系统
  • 16.6.1 系统组成
  • 16.6.2 相关研究
  • 参考文献
  • 自然语言处理及其相关领域的国际会议
  • 名词术语索引
展开全部

评分及书评

评分不足
1个评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。