计算机
类型
6.7
豆瓣评分
可以朗读
语音朗读
150千字
字数
2018-06-01
发行日期
展开全部
主编推荐语
本书讲述自然语言处理相关学科知识和理论基础
内容简介
由于自然语言处理的特殊性,其是一门多学科交叉的学科,初学者难以把握知识的广度和宽度,对侧重点不能全面掌握。
本书针对以上情况,经过科学调研分析,选择以理论结合实例的方式将内容呈现出来。其中涉及开发工具、Python语言、线性代数、概率论、统计学、语言学等工程上常用的知识介绍,然后介绍自然语言处理的核心理论和案例解析,最后通过几个综合性的例子完成自然语言处理的学习和深入。
目录
- 版权信息
- 主要作者简介
- 前言
- 读者服务
- 第1章 基础入门
- 1.1 什么是自然语言处理
- 1.1.1 自然语言处理概述
- 1.1.2 自然语言处理的发展历史
- 1.1.3 自然语言处理的工作原理
- 1.1.4 自然语言处理的应用前景
- 1.2 开发工具与环境
- 1.2.1 Sublime Text和Anaconda介绍
- 1.2.2 开发环境的安装与配置
- 1.3 实战:第一个小程序的诞生
- 1.3.1 实例介绍
- 1.3.2 源码实现
- 第2章 快速上手Python
- 2.1 初识Python编程语言
- 2.1.1 Python概述
- 2.1.2 Python能做什么
- 2.1.3 Python的语法和特点
- 2.2 Python进阶
- 2.2.1 Hello World
- 2.2.2 语句和控制流
- 2.2.3 函数
- 2.2.4 List列表
- 2.2.5 元组
- 2.2.6 set集合
- 2.2.7 字典
- 2.2.8 面向对象编程:类
- 2.2.9 标准库
- 2.3 Python深入
- 2.3.1 Web框架
- 2.3.2 科学计算
- 2.3.3 GUI
- 2.3.4 其他库
- 第3章 线性代数
- 3.1 线性代数介绍
- 3.2 向量
- 3.2.1 向量定义
- 3.2.2 向量表示
- 3.2.3 向量定理
- 3.2.4 向量运算
- 3.3 矩阵
- 3.3.1 矩阵定义
- 3.3.2 矩阵表示
- 3.3.3 矩阵运算
- 3.3.4 线性方程组
- 3.3.5 行列式
- 3.3.6 特征值和特征向量
- 3.4 距离计算
- 3.4.1 余弦距离
- 3.4.2 欧氏距离
- 3.4.3 曼哈顿距离
- 3.4.4 明可夫斯基距离
- 3.4.5 切比雪夫距离
- 3.4.6 杰卡德距离
- 3.4.7 汉明距离
- 3.4.8 标准化欧式距离
- 3.4.9 皮尔逊相关系数
- 第4章 概率论
- 4.1 概率论介绍
- 4.2 事件
- 4.2.1 随机试验
- 4.2.2 随机事件和样本空间
- 4.2.3 事件的计算
- 4.3 概率
- 4.4 概率公理
- 4.5 条件概率和全概率
- 4.5.1 条件概率
- 4.5.2 全概率
- 4.6 贝叶斯定理
- 4.7 信息论
- 4.7.1 信息论的基本概念
- 4.7.2 信息度量
- 第5章 统计学
- 5.1 图形可视化
- 5.1.1 饼图
- 5.1.2 条形图
- 5.1.3 热力图
- 5.1.4 折线图
- 5.1.5 箱线图
- 5.1.6 散点图
- 5.1.7 雷达图
- 5.1.8 仪表盘
- 5.1.9 可视化图表用法
- 5.2 数据度量标准
- 5.2.1 平均值
- 5.2.2 中位数
- 5.2.3 众数
- 5.2.4 期望
- 5.2.5 方差
- 5.2.6 标准差
- 5.2.7 标准分
- 5.3 概率分布
- 5.3.1 几何分布
- 5.3.2 二项分布
- 5.3.3 正态分布
- 5.3.4 泊松分布
- 5.4 统计假设检验
- 5.5 相关和回归
- 5.5.1 相关
- 5.5.2 回归
- 5.5.3 相关和回归的联系
- 第6章 语言学
- 6.1 语音
- 6.1.1 什么是语音
- 6.1.2 语音的三大属性
- 6.1.3 语音单位
- 6.1.4 记音符号
- 6.1.5 共时语流音变
- 6.2 词汇
- 6.2.1 什么是词汇
- 6.2.2 词汇单位
- 6.2.3 词的构造
- 6.2.4 词义及其分类
- 6.2.5 义项与义素
- 6.2.6 语义场
- 6.2.7 词汇的构成
- 6.3 语法
- 6.3.1 什么是语法
- 6.3.2 词类
- 6.3.3 短语
- 6.3.4 单句
- 6.3.5 复句
- 第7章 自然语言处理
- 7.1 自然语言处理的任务和限制
- 7.2 自然语言处理的主要技术范畴
- 7.2.1 语音合成
- 7.2.2 语音识别
- 7.2.3 中文自动分词
- 7.2.4 词性标注
- 7.2.5 句法分析
- 7.2.6 文本分类
- 7.2.7 文本挖掘
- 7.2.8 信息抽取
- 7.2.9 问答系统
- 7.2.10 机器翻译
- 7.2.11 文本情感分析
- 7.2.12 自动摘要
- 7.2.13 文字蕴涵
- 7.3 自然语言处理的难点
- 7.3.1 语言环境复杂
- 7.3.2 文本结构形式多样
- 7.3.3 边界识别限制
- 7.3.4 词义消歧
- 7.3.5 指代消解
- 7.4 自然语言处理展望
- 第8章 语料库
- 8.1 语料库浅谈
- 8.2 语料库深入
- 8.3 自然语言处理工具包:NLTK
- 8.3.1 NLTK简介
- 8.3.2 安装NLTK
- 8.3.3 使用NLTK
- 8.3.4 在Python NLTK下使用Stanford NLP
- 8.4 获取语料库
- 8.4.1 国内外著名语料库
- 8.4.2 网络数据获取
- 8.4.3 NLTK获取语料库
- 8.5 综合案例:走进大秦帝国
- 8.5.1 数据采集和预处理
- 8.5.2 构建本地语料库
- 8.5.3 大秦帝国语料操作
- 第9章 中文自动分词
- 9.1 中文分词简介
- 9.2 中文分词的特点和难点
- 9.3 常见中文分词方法
- 9.4 典型中文分词工具
- 9.4.1 HanLP中文分词
- 9.4.2 其他中文分词工具
- 9.5 结巴中文分词
- 9.5.1 基于Python的结巴中文分词
- 9.5.2 结巴分词工具详解
- 9.5.3 结巴分词核心内容
- 9.5.4 结巴分词基本用法
- 第10章 数据预处理
- 10.1 数据清洗
- 10.2 分词处理
- 10.3 特征构造
- 10.4 特征降维与选择
- 10.4.1 特征降维
- 10.4.2 特征选择
- 10.5 简单实例
- 10.6 本章小结
- 第11章 马尔可夫模型
- 11.1 马尔可夫链
- 11.1.1 马尔可夫简介
- 11.1.2 马尔可夫链的基本概念
- 11.2 隐马尔可夫模型
- 11.2.1 形式化描述
- 11.2.2 数学形式描述
- 11.3 向前算法解决HMM似然度
- 11.3.1 向前算法定义
- 11.3.2 向前算法原理
- 11.3.3 现实应用:预测成都天气的冷热
- 11.4 文本序列标注案例:Viterbi算法
- 第12章 条件随机场
- 12.1 条件随机场介绍
- 12.2 简单易懂的条件随机场
- 12.2.1 CRF的形式化表示
- 12.2.2 CRF的公式化表示
- 12.2.3 深度理解条件随机场
- 第13章 模型评估
- 13.1 从统计角度介绍模型概念
- 13.1.1 算法模型
- 13.1.2 模型评估和模型选择
- 13.1.3 过拟合与欠拟合的模型选择
- 13.2 模型评估与选择
- 13.2.1 模型评估的概念
- 13.2.2 模型评估的评测指标
- 13.2.3 以词性标注为例分析模型评估
- 13.2.4 模型评估的几种方法
- 13.3 ROC曲线比较学习器模型
- 第14章 命名实体识别
- 14.1 命名实体识别概述
- 14.2 命名实体识别的特点与难点
- 14.3 命名实体识别方法
- 14.4 中文命名实体识别的核心技术
- 14.5 展望
- 第15章 自然语言处理实战
- 15.1 GitHub数据提取与可视化分析
- 15.1.1 了解GitHub的API
- 15.1.2 使用NetworkX作图
- 15.1.3 使用NetworkX构建兴趣图
- 15.1.4 NetWorkX部分统计指标
- 15.1.5 构建GitHub的兴趣图
- 15.1.6 可视化
- 15.2 微博话题爬取与存储分析
- 15.2.1 数据采集
- 15.2.2 数据提取
- 15.2.3 数据存储
- 15.2.4 项目运行与分析
- 附录A Python与其他语言调用
- 附录B Git项目上传简易教程
- 参考文献
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。