展开全部

主编推荐语

Python开源社区资深供稿人撰写的文本分析实用指南。

内容简介

本书作为一本借助于Python编程语言以及各种开源工具(如Gensim、spaCy等)来执行文本分析、自然语言处理和计算语言学算法的图书,从应用层面介绍了相关的理论知识和所涉及的技术。

本书共分为15章,其内容涵盖了文本分析的定义、使用Python进行文本分析的技巧,spaCy语言模型、Gensim工具、词性标注及其应用、NER标记及其应用、依存分析、主题模型、高级主题建模、文本聚类和文本分类、查询词相似度计算和文本摘要、词嵌入、使用深度学习处理文本、使用Keras和spaCy进行深度学习、情感分析与聊天机器人的原理介绍等。

本书适合对自然语言处理的实现细节感兴趣的Python程序开发人员阅读。如果读者具备统计学的基本知识,对学习本书内容会大有裨益。

目录

  • 版权信息
  • 内容提要
  • 关于作者
  • 关于审稿人
  • 前言
  • 本书的目标读者
  • 本书主要内容
  • 资源与支持
  • 第1章 什么是文本分析
  • 1.1 什么是文本分析
  • 1.2 搜集数据
  • 1.3 若输入错误数据,则输出亦为错误数据(garbage in,garbage out)
  • 1.4 为什么你需要文本分析
  • 1.5 总结
  • 第2章 Python文本分析技巧
  • 2.1 为什么用Python来做文本分析
  • 2.2 用Python进行文本操作
  • 2.3 总结
  • 第3章 spaCy语言模型
  • 3.1 spaCy库
  • 3.2 spaCy的安装步骤
  • 3.3 故障排除
  • 3.4 语言模型
  • 3.5 安装语言模型
  • 3.6 安装语言模型的方式及原因
  • 3.7 语言模型的基本预处理操作
  • 3.8 分词
  • 3.9 词性标注
  • 3.10 命名实体识别
  • 3.11 规则匹配
  • 3.12 预处理
  • 3.13 总结
  • 第4章 Gensim:文本向量化、向量变换和n-grams的工具
  • 4.1 Gensim库介绍
  • 4.2 向量以及为什么需要向量化
  • 4.3 词袋(bag-of-words)
  • 4.4 TF-IDF(词频-反向文档频率)
  • 4.5 其他表示方式
  • 4.6 Gensim中的向量变换
  • 4.7 n-grams及其预处理技术
  • 4.8 总结
  • 第5章 词性标注及其应用
  • 5.1 什么是词性标注
  • 5.2 使用Python实现词性标注
  • 5.3 使用spaCy进行词性标注
  • 5.4 从头开始训练一个词性标注模型
  • 5.5 词性标注的代码示例
  • 5.6 总结
  • 第6章 NER标注及其应用
  • 6.1 什么是NER标注
  • 6.2 用Python实现NER标注
  • 6.3 使用spaCy实现NER标注
  • 6.4 从头开始训练一个NER标注器
  • 6.5 NER标注应用实例和可视化
  • 6.6 总结
  • 第7章 依存分析
  • 7.1 依存分析
  • 7.2 用Python实现依存分析
  • 7.3 用spaCy实现依存分析
  • 7.4 从头开始训练一个依存分析器
  • 7.5 总结
  • 第8章 主题模型
  • 8.1 什么是主题模型
  • 8.2 使用Gensim构建主题模型
  • 8.3 隐狄利克雷分配(Latent Dirichlet Allocation)
  • 8.4 潜在语义索引(Latent Semantic Indexing)
  • 8.5 分层狄利特雷过程(Hierarchical Dirichlet Process)
  • 8.6 动态主题模型
  • 8.7 使用scikit-learn构建主题模型
  • 8.8 总结
  • 第9章 高级主题建模
  • 9.1 高级训练技巧
  • 9.2 探索文档
  • 9.3 主题一致性和主题模型的评估
  • 9.4 主题模型的可视化
  • 9.5 总结
  • 第10章 文本聚类和文本分类
  • 10.1 文本聚类
  • 10.2 聚类前的准备工作
  • 10.3 K-means
  • 10.4 层次聚类
  • 10.5 文本分类
  • 10.6 总结
  • 第11章 查询词相似度计算和文本摘要
  • 11.1 文本距离的度量
  • 11.2 查询词相似度计算
  • 11.3 文本摘要
  • 11.4 总结
  • 第12章 Word2Vec、Doc2Vec和Gensim
  • 12.1 Word2Vec
  • 12.2 用Gensim实现Word2Vec
  • 12.3 Doc2Vec
  • 12.4 其他词嵌入技术
  • 12.5 总结
  • 第13章 使用深度学习处理文本
  • 13.1 深度学习
  • 13.2 深度学习在文本上的应用
  • 13.3 文本生成
  • 13.4 总结
  • 第14章 使用Keras和spaCy进行深度学习
  • 14.1 Keras和spaCy
  • 14.2 使用Keras进行文本分类
  • 14.3 使用spaCy进行文本分类
  • 14.4 总结
  • 第15章 情感分析与聊天机器人
  • 15.1 情感分析
  • 15.2 基于Reddit的新闻数据挖掘
  • 15.3 基于Twitter的微博数据挖掘
  • 15.4 聊天机器人
  • 15.5 总结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。