展开全部

主编推荐语

本书介绍了有关Python文本分析的常用算法。

内容简介

本书遵循结构化和综合性的方法,介绍了文本和语言语法、结构和语义的基础概念和高级概念。从自然语言和Python的基础开始,进而学习先进的分析理念和机器学习概念。全面提供了自然语言处理(NLP)和文本分析的主要概念和技术。

本书包含了丰富的真实案例实现技术,例如构建分类新闻文章的文本分类系统,使用主题建模和文本摘要分析app或游戏评论,进行热门电影概要的聚类分析和电影评论的情感分析。介绍了基于Python和流行NLP开源库和文本分析实用工具,如自然语言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern。

目录

  • 版权信息
  • 译者序
  • 前言
  • 第1章 自然语言基础
  • 1.1 自然语言
  • 1.1.1 什么是自然语言
  • 1.1.2 语言哲学
  • 1.1.3 语言习得和用法
  • 1.2 语言学
  • 1.3 语言句法和结构
  • 1.3.1 词
  • 1.3.2 短语
  • 1.3.3 从句
  • 1.3.4 语法
  • 1.3.5 语序类型学
  • 1.4 语言语义
  • 1.4.1 词汇语义关系
  • 1.4.2 语义网络和模型
  • 1.4.3 语义表示
  • 1.5 文本语料库
  • 1.5.1 文本语料库标注及使用
  • 1.5.2 热门的语料库
  • 1.5.3 访问文本语料库
  • 1.6 自然语言处理
  • 1.6.1 机器翻译
  • 1.6.2 语音识别系统
  • 1.6.3 问答系统
  • 1.6.4 语境识别与消解
  • 1.6.5 文本摘要
  • 1.6.6 文本分类
  • 1.7 文本分析
  • 1.8 小结
  • 第2章 Python语言回顾
  • 2.1 了解Python
  • 2.1.1 Python之禅
  • 2.1.2 应用:何时使用Python
  • 2.1.3 缺点:何时不用Python
  • 2.1.4 Python实现和版本
  • 2.2 安装和设置
  • 2.2.1 用哪个Python版本
  • 2.2.2 用哪个操作系统
  • 2.2.3 集成开发环境
  • 2.2.4 环境设置
  • 2.2.5 虚拟环境
  • 2.3 Python句法和结构
  • 2.4 数据结构和类型
  • 2.4.1 数值类型
  • 2.4.2 字符串
  • 2.4.3 列表
  • 2.4.4 集合
  • 2.4.5 字典
  • 2.4.6 元组
  • 2.4.7 文件
  • 2.4.8 杂项
  • 2.5 控制代码流
  • 2.5.1 条件结构
  • 2.5.2 循环结构
  • 2.5.3 处理异常
  • 2.6 函数编程
  • 2.6.1 函数
  • 2.6.2 递归函数
  • 2.6.3 匿名函数
  • 2.6.4 迭代器
  • 2.6.5 分析器
  • 2.6.6 生成器
  • 2.6.7 itertools和functods模块
  • 2.7 类
  • 2.8 使用文本
  • 2.8.1 字符串文字
  • 2.8.2 字符串操作和方法
  • 2.9 文本分析框架
  • 2.10 小结
  • 第3章 处理和理解文本
  • 3.1 文本切分
  • 3.1.1 句子切分
  • 3.1.2 词语切分
  • 3.2 文本规范化
  • 3.2.1 文本清洗
  • 3.2.2 文本切分
  • 3.2.3 删除特殊字符
  • 3.2.4 扩展缩写词
  • 3.2.5 大小写转换
  • 3.2.6 删除停用词
  • 3.2.7 词语校正
  • 3.2.8 词干提取
  • 3.2.9 词形还原
  • 3.3 理解文本句法和结构
  • 3.3.1 安装必要的依赖项
  • 3.3.2 机器学习重要概念
  • 3.3.3 词性标注
  • 3.3.4 浅层分析
  • 3.3.5 基于依存关系的分析
  • 3.3.6 基于成分结构的分析
  • 3.4 小结
  • 第4章 文本分类
  • 4.1 什么是文本分类
  • 4.2 自动文本分类
  • 4.3 文本分类的蓝图
  • 4.4 文本规范化处理
  • 4.5 特征提取
  • 4.5.1 词袋模型
  • 4.5.2 TF-IDF模型
  • 4.5.3 高级词向量模型
  • 4.6 分类算法
  • 4.6.1 多项式朴素贝叶斯
  • 4.6.2 支持向量机
  • 4.7 评估分类模型
  • 4.8 建立一个多类分类系统
  • 4.9 应用
  • 4.10 小结
  • 第5章 文本摘要
  • 5.1 文本摘要和信息提取
  • 5.2 重要概念
  • 5.2.1 文档
  • 5.2.2 文本规范化
  • 5.2.3 特征提取
  • 5.2.4 特征矩阵
  • 5.2.5 奇异值分解
  • 5.3 文本规范化
  • 5.4 特征提取
  • 5.5 关键短语提取
  • 5.5.1 搭配
  • 5.5.2 基于权重标签的短语提取
  • 5.6 主题建模
  • 5.6.1 隐含语义索引
  • 5.6.2 隐含Dirichlet分布
  • 5.6.3 非负矩阵分解
  • 5.6.4 从产品评论中提取主题
  • 5.7 自动文档摘要
  • 5.7.1 隐含语义分析
  • 5.7.2 TextRank算法
  • 5.7.3 生成产品说明摘要
  • 5.8 小结
  • 第6章 文本相似度和聚类
  • 6.1 重要概念
  • 6.1.1 信息检索
  • 6.1.2 特征工程
  • 6.1.3 相似度测量
  • 6.1.4 无监督的机器学习算法
  • 6.2 文本规范化
  • 6.3 特征提取
  • 6.4 文本相似度
  • 6.5 词项相似度分析
  • 6.5.1 汉明距离
  • 6.5.2 曼哈顿距离
  • 6.5.3 欧几里得距离
  • 6.5.4 莱文斯坦编辑距离
  • 6.5.5 余弦距离和相似度
  • 6.6 文档相似度分析
  • 6.6.1 余弦相似度
  • 6.6.2 海灵格-巴塔恰亚距离
  • 6.6.3 Okapi BM25排名
  • 6.7 文档聚类
  • 6.8 最佳影片聚类分析
  • 6.8.1 k-means聚类
  • 6.8.2 近邻传播聚类
  • 6.8.3 沃德凝聚层次聚类
  • 6.9 小结
  • 第7章 语义与情感分析
  • 7.1 语义分析
  • 7.2 探索WordNet
  • 7.2.1 理解同义词集
  • 7.2.2 分析词汇的语义关系
  • 7.3 词义消歧
  • 7.4 命名实体识别
  • 7.5 分析语义表征
  • 7.5.1 命题逻辑
  • 7.5.2 一阶逻辑
  • 7.6 情感分析
  • 7.7 IMDb电影评论的情感分析
  • 7.7.1 安装依赖程序包
  • 7.7.2 准备数据集
  • 7.7.3 有监督的机器学习技术
  • 7.7.4 无监督的词典技术
  • 7.7.5 模型性能比较
  • 7.8 小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。