科技
类型
6.5
豆瓣评分
可以朗读
语音朗读
138千字
字数
2017-06-01
发行日期
展开全部
主编推荐语
本书适合NLP和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习NLTK的zishenPython程序员以及机器学习领域的研究人员阅读。
内容简介
NLTK库是当前自然语言处理(NLP)领域最为流行、使用最为广泛的库之一, 同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一。
本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。全书共分为10章。第1章对NLP进行了简单介绍。第2章、第3章和第4章主要介绍一些通用的预处理技术、专属于NLP领域的预处理技术以及命名实体识别技术等。第5章之后的内容侧重于介绍如何构建一些NLP应用,涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。
目录
- 版权信息
- 内容提要
- 作者简介
- 审阅者简介
- 译者序
- 前言
- 第1章 自然语言处理简介
- 1.1 为什么要学习NLP
- 1.2 先从Python开始吧
- 1.2.1 列表
- 1.2.2 自助功能
- 1.2.3 正则表达式
- 1.2.4 字典
- 1.2.5 编写函数
- 1.3 向NLTK迈进
- 1.4 练习
- 1.5 小结
- 第2章 文本的歧义及其清理
- 2.1 何谓文本歧义
- 2.2 文本清理
- 2.3 语句分离器
- 2.4 标识化处理
- 2.5 词干提取
- 2.6 词形还原
- 2.7 停用词移除
- 2.8 罕见词移除
- 2.9 拼写纠错
- 2.10 练习
- 2.11 小结
- 第3章 词性标注
- 3.1 何谓词性标注
- 3.1.1 Stanford标注器
- 3.1.2 深入了解标注器
- 3.1.3 顺序性标注器
- 3.1.4 Brill标注器
- 3.1.5 基于机器学习的标注器
- 3.2 命名实体识别(NER)
- NER标注器
- 3.3 练习
- 3.4 小结
- 第4章 文本结构解析
- 4.1 浅解析与深解析
- 4.2 两种解析方法
- 4.3 为什么需要进行解析
- 4.4 不同的解析器类型
- 4.4.1 递归下降解析器
- 4.4.2 移位-归约解析器
- 4.4.3 图表解析器
- 4.4.4 正则表达式解析器
- 4.5 依存性文本解析
- 4.6 语块分解
- 4.7 信息提取
- 4.7.1 命名实体识别(NER)
- 4.7.2 关系提取
- 4.8 小结
- 第5章 NLP应用
- 5.1 构建第一个NLP应用
- 5.2 其他NLP应用
- 5.2.1 机器翻译
- 5.2.2 统计型机器翻译
- 5.2.3 信息检索
- 5.2.4 语音识别
- 5.2.5 文本分类
- 5.2.6 信息提取
- 5.2.7 问答系统
- 5.2.8 对话系统
- 5.2.9 词义消歧
- 5.2.10 主题建模
- 5.2.11 语言检测
- 5.2.12 光符识别
- 5.3 小结
- 第6章 文本分类
- 6.1 机器学习
- 6.2 文本分类
- 6.3 取样操作
- 6.3.1 朴素贝叶斯法
- 6.3.2 决策树
- 6.3.3 随机梯度下降法
- 6.3.4 逻辑回归
- 6.3.5 支持向量机
- 6.4 随机森林算法
- 6.5 文本聚类
- K均值法
- 6.6 文本中的主题建模
- 安装gensim
- 6.7 参考资料
- 6.8 小结
- 第7章 Web爬虫
- 7.1 Web爬虫
- 7.2 编写第一个爬虫程序
- 7.3 Scrapy库中的数据流
- 7.3.1 Scrapy库的shell
- 7.3.2 目标项
- 7.4 生成网站地图的蜘蛛程序
- 7.5 目标项管道
- 7.6 参考资料
- 7.7 小结
- 第8章 NLTK与其他Python库的搭配运用
- 8.1 NumPy
- 8.1.1 多维数组
- 8.1.2 基本运算
- 8.1.3 从数组中提取数据
- 8.1.4 复杂矩阵运算
- 8.2 SciPy
- 8.2.1 线性代数
- 8.2.2 特征值与特征向量
- 8.2.3 稀疏矩阵
- 8.2.4 优化措施
- 8.3 pandas
- 8.3.1 读取数据
- 8.3.2 数列
- 8.3.3 列转换
- 8.3.4 噪声数据
- 8.4 matplotlib
- 8.4.1 子图绘制
- 8.4.2 添加坐标轴
- 8.4.3 散点图绘制
- 8.4.4 条形图绘制
- 8.4.5 3D绘图
- 8.5 参考资料
- 8.6 小结
- 第9章 Python中的社交媒体挖掘
- 9.1 数据收集
- 9.2 数据提取
- 热门话题
- 9.3 地理可视化
- 9.3.1 影响力检测
- 9.3.2 Facebook
- 9.3.3 有影响力的朋友
- 9.4 小结
- 第10章 大规模文本挖掘
- 10.1 在Hadoop上使用Python的不同方式
- 10.1.1 Python的流操作
- 10.1.2 Hive/Pig下的UDF
- 10.1.3 流封装器
- 10.2 Hadoop上的NLTK
- 10.2.1 用户定义函数(UDF)
- 10.2.2 Python的流操作
- 10.3 Hadoop上的Scikit-learn
- 10.4 PySpark
- 10.5 小结
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。