展开全部

主编推荐语

本书适合NLP和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习NLTK的zishenPython程序员以及机器学习领域的研究人员阅读。

内容简介

NLTK库是当前自然语言处理(NLP)领域最为流行、使用最为广泛的库之一, 同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一。

本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。全书共分为10章。第1章对NLP进行了简单介绍。第2章、第3章和第4章主要介绍一些通用的预处理技术、专属于NLP领域的预处理技术以及命名实体识别技术等。第5章之后的内容侧重于介绍如何构建一些NLP应用,涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。

目录

  • 版权信息
  • 内容提要
  • 作者简介
  • 审阅者简介
  • 译者序
  • 前言
  • 第1章 自然语言处理简介
  • 1.1 为什么要学习NLP
  • 1.2 先从Python开始吧
  • 1.2.1 列表
  • 1.2.2 自助功能
  • 1.2.3 正则表达式
  • 1.2.4 字典
  • 1.2.5 编写函数
  • 1.3 向NLTK迈进
  • 1.4 练习
  • 1.5 小结
  • 第2章 文本的歧义及其清理
  • 2.1 何谓文本歧义
  • 2.2 文本清理
  • 2.3 语句分离器
  • 2.4 标识化处理
  • 2.5 词干提取
  • 2.6 词形还原
  • 2.7 停用词移除
  • 2.8 罕见词移除
  • 2.9 拼写纠错
  • 2.10 练习
  • 2.11 小结
  • 第3章 词性标注
  • 3.1 何谓词性标注
  • 3.1.1 Stanford标注器
  • 3.1.2 深入了解标注器
  • 3.1.3 顺序性标注器
  • 3.1.4 Brill标注器
  • 3.1.5 基于机器学习的标注器
  • 3.2 命名实体识别(NER)
  • NER标注器
  • 3.3 练习
  • 3.4 小结
  • 第4章 文本结构解析
  • 4.1 浅解析与深解析
  • 4.2 两种解析方法
  • 4.3 为什么需要进行解析
  • 4.4 不同的解析器类型
  • 4.4.1 递归下降解析器
  • 4.4.2 移位-归约解析器
  • 4.4.3 图表解析器
  • 4.4.4 正则表达式解析器
  • 4.5 依存性文本解析
  • 4.6 语块分解
  • 4.7 信息提取
  • 4.7.1 命名实体识别(NER)
  • 4.7.2 关系提取
  • 4.8 小结
  • 第5章 NLP应用
  • 5.1 构建第一个NLP应用
  • 5.2 其他NLP应用
  • 5.2.1 机器翻译
  • 5.2.2 统计型机器翻译
  • 5.2.3 信息检索
  • 5.2.4 语音识别
  • 5.2.5 文本分类
  • 5.2.6 信息提取
  • 5.2.7 问答系统
  • 5.2.8 对话系统
  • 5.2.9 词义消歧
  • 5.2.10 主题建模
  • 5.2.11 语言检测
  • 5.2.12 光符识别
  • 5.3 小结
  • 第6章 文本分类
  • 6.1 机器学习
  • 6.2 文本分类
  • 6.3 取样操作
  • 6.3.1 朴素贝叶斯法
  • 6.3.2 决策树
  • 6.3.3 随机梯度下降法
  • 6.3.4 逻辑回归
  • 6.3.5 支持向量机
  • 6.4 随机森林算法
  • 6.5 文本聚类
  • K均值法
  • 6.6 文本中的主题建模
  • 安装gensim
  • 6.7 参考资料
  • 6.8 小结
  • 第7章 Web爬虫
  • 7.1 Web爬虫
  • 7.2 编写第一个爬虫程序
  • 7.3 Scrapy库中的数据流
  • 7.3.1 Scrapy库的shell
  • 7.3.2 目标项
  • 7.4 生成网站地图的蜘蛛程序
  • 7.5 目标项管道
  • 7.6 参考资料
  • 7.7 小结
  • 第8章 NLTK与其他Python库的搭配运用
  • 8.1 NumPy
  • 8.1.1 多维数组
  • 8.1.2 基本运算
  • 8.1.3 从数组中提取数据
  • 8.1.4 复杂矩阵运算
  • 8.2 SciPy
  • 8.2.1 线性代数
  • 8.2.2 特征值与特征向量
  • 8.2.3 稀疏矩阵
  • 8.2.4 优化措施
  • 8.3 pandas
  • 8.3.1 读取数据
  • 8.3.2 数列
  • 8.3.3 列转换
  • 8.3.4 噪声数据
  • 8.4 matplotlib
  • 8.4.1 子图绘制
  • 8.4.2 添加坐标轴
  • 8.4.3 散点图绘制
  • 8.4.4 条形图绘制
  • 8.4.5 3D绘图
  • 8.5 参考资料
  • 8.6 小结
  • 第9章 Python中的社交媒体挖掘
  • 9.1 数据收集
  • Twitter
  • 9.2 数据提取
  • 热门话题
  • 9.3 地理可视化
  • 9.3.1 影响力检测
  • 9.3.2 Facebook
  • 9.3.3 有影响力的朋友
  • 9.4 小结
  • 第10章 大规模文本挖掘
  • 10.1 在Hadoop上使用Python的不同方式
  • 10.1.1 Python的流操作
  • 10.1.2 Hive/Pig下的UDF
  • 10.1.3 流封装器
  • 10.2 Hadoop上的NLTK
  • 10.2.1 用户定义函数(UDF)
  • 10.2.2 Python的流操作
  • 10.3 Hadoop上的Scikit-learn
  • 10.4 PySpark
  • 10.5 小结
展开全部

评分及书评

评分不足
1个评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。