科技
类型
可以朗读
语音朗读
202千字
字数
2020-08-01
发行日期
展开全部
主编推荐语
Python开源社区资深供稿人撰写的文本分析实用指南。
内容简介
本书作为一本借助于Python编程语言以及各种开源工具(如Gensim、spaCy等)来执行文本分析、自然语言处理和计算语言学算法的图书,从应用层面介绍了相关的理论知识和所涉及的技术。
本书共分为15章,其内容涵盖了文本分析的定义、使用Python进行文本分析的技巧,spaCy语言模型、Gensim工具、词性标注及其应用、NER标记及其应用、依存分析、主题模型、高级主题建模、文本聚类和文本分类、查询词相似度计算和文本摘要、词嵌入、使用深度学习处理文本、使用Keras和spaCy进行深度学习、情感分析与聊天机器人的原理介绍等。
本书适合对自然语言处理的实现细节感兴趣的Python程序开发人员阅读。如果读者具备统计学的基本知识,对学习本书内容会大有裨益。
目录
- 版权信息
- 内容提要
- 关于作者
- 关于审稿人
- 前言
- 本书的目标读者
- 本书主要内容
- 资源与支持
- 第1章 什么是文本分析
- 1.1 什么是文本分析
- 1.2 搜集数据
- 1.3 若输入错误数据,则输出亦为错误数据(garbage in,garbage out)
- 1.4 为什么你需要文本分析
- 1.5 总结
- 第2章 Python文本分析技巧
- 2.1 为什么用Python来做文本分析
- 2.2 用Python进行文本操作
- 2.3 总结
- 第3章 spaCy语言模型
- 3.1 spaCy库
- 3.2 spaCy的安装步骤
- 3.3 故障排除
- 3.4 语言模型
- 3.5 安装语言模型
- 3.6 安装语言模型的方式及原因
- 3.7 语言模型的基本预处理操作
- 3.8 分词
- 3.9 词性标注
- 3.10 命名实体识别
- 3.11 规则匹配
- 3.12 预处理
- 3.13 总结
- 第4章 Gensim:文本向量化、向量变换和n-grams的工具
- 4.1 Gensim库介绍
- 4.2 向量以及为什么需要向量化
- 4.3 词袋(bag-of-words)
- 4.4 TF-IDF(词频-反向文档频率)
- 4.5 其他表示方式
- 4.6 Gensim中的向量变换
- 4.7 n-grams及其预处理技术
- 4.8 总结
- 第5章 词性标注及其应用
- 5.1 什么是词性标注
- 5.2 使用Python实现词性标注
- 5.3 使用spaCy进行词性标注
- 5.4 从头开始训练一个词性标注模型
- 5.5 词性标注的代码示例
- 5.6 总结
- 第6章 NER标注及其应用
- 6.1 什么是NER标注
- 6.2 用Python实现NER标注
- 6.3 使用spaCy实现NER标注
- 6.4 从头开始训练一个NER标注器
- 6.5 NER标注应用实例和可视化
- 6.6 总结
- 第7章 依存分析
- 7.1 依存分析
- 7.2 用Python实现依存分析
- 7.3 用spaCy实现依存分析
- 7.4 从头开始训练一个依存分析器
- 7.5 总结
- 第8章 主题模型
- 8.1 什么是主题模型
- 8.2 使用Gensim构建主题模型
- 8.3 隐狄利克雷分配(Latent Dirichlet Allocation)
- 8.4 潜在语义索引(Latent Semantic Indexing)
- 8.5 分层狄利特雷过程(Hierarchical Dirichlet Process)
- 8.6 动态主题模型
- 8.7 使用scikit-learn构建主题模型
- 8.8 总结
- 第9章 高级主题建模
- 9.1 高级训练技巧
- 9.2 探索文档
- 9.3 主题一致性和主题模型的评估
- 9.4 主题模型的可视化
- 9.5 总结
- 第10章 文本聚类和文本分类
- 10.1 文本聚类
- 10.2 聚类前的准备工作
- 10.3 K-means
- 10.4 层次聚类
- 10.5 文本分类
- 10.6 总结
- 第11章 查询词相似度计算和文本摘要
- 11.1 文本距离的度量
- 11.2 查询词相似度计算
- 11.3 文本摘要
- 11.4 总结
- 第12章 Word2Vec、Doc2Vec和Gensim
- 12.1 Word2Vec
- 12.2 用Gensim实现Word2Vec
- 12.3 Doc2Vec
- 12.4 其他词嵌入技术
- 12.5 总结
- 第13章 使用深度学习处理文本
- 13.1 深度学习
- 13.2 深度学习在文本上的应用
- 13.3 文本生成
- 13.4 总结
- 第14章 使用Keras和spaCy进行深度学习
- 14.1 Keras和spaCy
- 14.2 使用Keras进行文本分类
- 14.3 使用spaCy进行文本分类
- 14.4 总结
- 第15章 情感分析与聊天机器人
- 15.1 情感分析
- 15.2 基于Reddit的新闻数据挖掘
- 15.3 基于Twitter的微博数据挖掘
- 15.4 聊天机器人
- 15.5 总结
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。