科技
类型
5.2
豆瓣评分
可以朗读
语音朗读
217千字
字数
2017-08-01
发行日期
展开全部
主编推荐语
本书适合熟悉Python语言并对自然语言处理开发有一定了解和兴趣的读者阅读参考。
内容简介
自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一。
本书是学习自然语言处理的一本综合学习指南,介绍了如何用Python实现各种NLP任务,以帮助读者创建基于真实生活应用的项目。全书共10章,分别涉及字符串操作、统计语言建模、形态学、词性标注、语法解析、语义分析、情感分析、信息检索、语篇分析和NLP系统评估等主题。
、
目录
- 版权信息
- 内容提要
- 作者简介
- 审阅者简介
- 译者简介
- 前言
- 第1章 字符串操作
- 1.1 切分
- 1.1.1 将文本切分为语句
- 1.1.2 其他语言文本的切分
- 1.1.3 将句子切分为单词
- 1.1.4 使用TreebankWordTokenizer执行切分
- 1.1.5 使用正则表达式实现切分
- 1.2 标准化
- 1.2.1 消除标点符号
- 1.2.2 文本的大小写转换
- 1.2.3 处理停止词
- 1.2.4 计算英语中的停止词
- 1.3 替换和校正标识符
- 1.3.1 使用正则表达式替换单词
- 1.3.2 用其他文本替换文本的示例
- 1.3.3 在执行切分前先执行替换操作
- 1.3.4 处理重复字符
- 1.3.5 去除重复字符的示例
- 1.3.6 用单词的同义词替换
- 1.3.7 用单词的同义词替换的示例
- 1.4 在文本上应用Zipf定律
- 1.5 相似性度量
- 1.5.1 使用编辑距离算法执行相似性度量
- 1.5.2 使用Jaccard系数执行相似性度量
- 1.5.3 使用Smith Waterman距离算法执行相似性度量
- 1.5.4 其他字符串相似性度量
- 1.6 小结
- 第2章 统计语言建模
- 2.1 理解单词频率
- 2.1.1 为给定的文本开发MLE
- 2.1.2 隐马尔科夫模型估计
- 2.2 在MLE模型上应用平滑
- 2.2.1 加法平滑
- 2.2.2 Good Turing平滑
- 2.2.3 Kneser Ney平滑
- 2.2.4 Witten Bell平滑
- 2.3 为MLE开发一个回退机制
- 2.4 应用数据的插值以便获取混合搭配
- 2.5 通过复杂度来评估语言模型
- 2.6 在语言建模中应用Metropolis-Hastings算法
- 2.7 在语言处理中应用Gibbs采样法
- 2.8 小结
- 第3章 形态学:在实践中学习
- 3.1 形态学简介
- 3.2 理解词干提取器
- 3.3 理解词形还原
- 3.4 为非英文语言开发词干提取器
- 3.5 形态分析器
- 3.6 形态生成器
- 3.7 搜索引擎
- 3.8 小结
- 第4章 词性标注:单词识别
- 4.1 词性标注简介
- 4.1.1 默认标注
- 4.2 创建词性标注语料库
- 4.3 选择一种机器学习算法
- 4.4 涉及n-gram的统计建模
- 4.5 使用词性标注语料库开发分块器
- 4.6 小结
- 第5章 语法解析:分析训练资料
- 5.1 语法解析简介
- 5.2 Treebank建设
- 5.3 从Treebank提取上下文无关文法规则
- 5.4 从CFG创建概率上下文无关文法
- 5.5 CYK线图解析算法
- 5.6 Earley线图解析算法
- 5.7 小结
- 第6章 语义分析:意义很重要
- 6.1 语义分析简介
- 6.1.1 NER简介
- 6.1.2 使用隐马尔科夫模型的NER系统
- 6.1.3 使用机器学习工具包训练NER
- 6.1.4 使用词性标注执行NER
- 6.2 使用Wordnet生成同义词集id
- 6.3 使用Wordnet进行词义消歧
- 6.4 小结
- 第7章 情感分析:我很快乐
- 7.1 情感分析简介
- 7.1.1 使用NER执行情感分析
- 7.1.2 使用机器学习执行情感分析
- 7.1.3 NER系统的评估
- 7.2 小结
- 第8章 信息检索:访问信息
- 8.1 信息检索简介
- 8.1.1 停止词删除
- 8.1.2 使用向量空间模型进行信息检索
- 8.2 向量空间评分及查询操作符关联
- 8.3 使用隐性语义索引开发IR系统
- 8.4 文本摘要
- 8.5 问答系统
- 8.6 小结
- 第9章 语篇分析:理解才是可信的
- 9.1 语篇分析简介
- 9.1.1 使用中心理论执行语篇分析
- 9.1.2 指代消解
- 9.2 小结
- 第10章 NLP系统评估:性能分析
- 10.1 NLP系统评估要点
- 10.1.1 NLP工具的评估(词性标注器、词干提取器及形态分析器)
- 10.1.2 使用黄金数据执行解析器评估
- 10.2 IR系统的评估
- 10.3 错误识别指标
- 10.4 基于词汇搭配的指标
- 10.5 基于句法匹配的指标
- 10.6 使用浅层语义匹配的指标
- 10.7 小结
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。