自我提升
类型
可以朗读
语音朗读
357千字
字数
2018-05-01
发行日期
展开全部
主编推荐语
本书介绍了有关Python文本分析的常用算法。
内容简介
本书遵循结构化和综合性的方法,介绍了文本和语言语法、结构和语义的基础概念和高级概念。从自然语言和Python的基础开始,进而学习先进的分析理念和机器学习概念。全面提供了自然语言处理(NLP)和文本分析的主要概念和技术。
本书包含了丰富的真实案例实现技术,例如构建分类新闻文章的文本分类系统,使用主题建模和文本摘要分析app或游戏评论,进行热门电影概要的聚类分析和电影评论的情感分析。介绍了基于Python和流行NLP开源库和文本分析实用工具,如自然语言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern。
目录
- 版权信息
- 译者序
- 前言
- 第1章 自然语言基础
- 1.1 自然语言
- 1.1.1 什么是自然语言
- 1.1.2 语言哲学
- 1.1.3 语言习得和用法
- 1.2 语言学
- 1.3 语言句法和结构
- 1.3.1 词
- 1.3.2 短语
- 1.3.3 从句
- 1.3.4 语法
- 1.3.5 语序类型学
- 1.4 语言语义
- 1.4.1 词汇语义关系
- 1.4.2 语义网络和模型
- 1.4.3 语义表示
- 1.5 文本语料库
- 1.5.1 文本语料库标注及使用
- 1.5.2 热门的语料库
- 1.5.3 访问文本语料库
- 1.6 自然语言处理
- 1.6.1 机器翻译
- 1.6.2 语音识别系统
- 1.6.3 问答系统
- 1.6.4 语境识别与消解
- 1.6.5 文本摘要
- 1.6.6 文本分类
- 1.7 文本分析
- 1.8 小结
- 第2章 Python语言回顾
- 2.1 了解Python
- 2.1.1 Python之禅
- 2.1.2 应用:何时使用Python
- 2.1.3 缺点:何时不用Python
- 2.1.4 Python实现和版本
- 2.2 安装和设置
- 2.2.1 用哪个Python版本
- 2.2.2 用哪个操作系统
- 2.2.3 集成开发环境
- 2.2.4 环境设置
- 2.2.5 虚拟环境
- 2.3 Python句法和结构
- 2.4 数据结构和类型
- 2.4.1 数值类型
- 2.4.2 字符串
- 2.4.3 列表
- 2.4.4 集合
- 2.4.5 字典
- 2.4.6 元组
- 2.4.7 文件
- 2.4.8 杂项
- 2.5 控制代码流
- 2.5.1 条件结构
- 2.5.2 循环结构
- 2.5.3 处理异常
- 2.6 函数编程
- 2.6.1 函数
- 2.6.2 递归函数
- 2.6.3 匿名函数
- 2.6.4 迭代器
- 2.6.5 分析器
- 2.6.6 生成器
- 2.6.7 itertools和functods模块
- 2.7 类
- 2.8 使用文本
- 2.8.1 字符串文字
- 2.8.2 字符串操作和方法
- 2.9 文本分析框架
- 2.10 小结
- 第3章 处理和理解文本
- 3.1 文本切分
- 3.1.1 句子切分
- 3.1.2 词语切分
- 3.2 文本规范化
- 3.2.1 文本清洗
- 3.2.2 文本切分
- 3.2.3 删除特殊字符
- 3.2.4 扩展缩写词
- 3.2.5 大小写转换
- 3.2.6 删除停用词
- 3.2.7 词语校正
- 3.2.8 词干提取
- 3.2.9 词形还原
- 3.3 理解文本句法和结构
- 3.3.1 安装必要的依赖项
- 3.3.2 机器学习重要概念
- 3.3.3 词性标注
- 3.3.4 浅层分析
- 3.3.5 基于依存关系的分析
- 3.3.6 基于成分结构的分析
- 3.4 小结
- 第4章 文本分类
- 4.1 什么是文本分类
- 4.2 自动文本分类
- 4.3 文本分类的蓝图
- 4.4 文本规范化处理
- 4.5 特征提取
- 4.5.1 词袋模型
- 4.5.2 TF-IDF模型
- 4.5.3 高级词向量模型
- 4.6 分类算法
- 4.6.1 多项式朴素贝叶斯
- 4.6.2 支持向量机
- 4.7 评估分类模型
- 4.8 建立一个多类分类系统
- 4.9 应用
- 4.10 小结
- 第5章 文本摘要
- 5.1 文本摘要和信息提取
- 5.2 重要概念
- 5.2.1 文档
- 5.2.2 文本规范化
- 5.2.3 特征提取
- 5.2.4 特征矩阵
- 5.2.5 奇异值分解
- 5.3 文本规范化
- 5.4 特征提取
- 5.5 关键短语提取
- 5.5.1 搭配
- 5.5.2 基于权重标签的短语提取
- 5.6 主题建模
- 5.6.1 隐含语义索引
- 5.6.2 隐含Dirichlet分布
- 5.6.3 非负矩阵分解
- 5.6.4 从产品评论中提取主题
- 5.7 自动文档摘要
- 5.7.1 隐含语义分析
- 5.7.2 TextRank算法
- 5.7.3 生成产品说明摘要
- 5.8 小结
- 第6章 文本相似度和聚类
- 6.1 重要概念
- 6.1.1 信息检索
- 6.1.2 特征工程
- 6.1.3 相似度测量
- 6.1.4 无监督的机器学习算法
- 6.2 文本规范化
- 6.3 特征提取
- 6.4 文本相似度
- 6.5 词项相似度分析
- 6.5.1 汉明距离
- 6.5.2 曼哈顿距离
- 6.5.3 欧几里得距离
- 6.5.4 莱文斯坦编辑距离
- 6.5.5 余弦距离和相似度
- 6.6 文档相似度分析
- 6.6.1 余弦相似度
- 6.6.2 海灵格-巴塔恰亚距离
- 6.6.3 Okapi BM25排名
- 6.7 文档聚类
- 6.8 最佳影片聚类分析
- 6.8.1 k-means聚类
- 6.8.2 近邻传播聚类
- 6.8.3 沃德凝聚层次聚类
- 6.9 小结
- 第7章 语义与情感分析
- 7.1 语义分析
- 7.2 探索WordNet
- 7.2.1 理解同义词集
- 7.2.2 分析词汇的语义关系
- 7.3 词义消歧
- 7.4 命名实体识别
- 7.5 分析语义表征
- 7.5.1 命题逻辑
- 7.5.2 一阶逻辑
- 7.6 情感分析
- 7.7 IMDb电影评论的情感分析
- 7.7.1 安装依赖程序包
- 7.7.2 准备数据集
- 7.7.3 有监督的机器学习技术
- 7.7.4 无监督的词典技术
- 7.7.5 模型性能比较
- 7.8 小结
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。