展开全部

主编推荐语

本书讲述自然语言处理相关学科知识和理论基础

内容简介

由于自然语言处理的特殊性,其是一门多学科交叉的学科,初学者难以把握知识的广度和宽度,对侧重点不能全面掌握。

本书针对以上情况,经过科学调研分析,选择以理论结合实例的方式将内容呈现出来。其中涉及开发工具、Python语言、线性代数、概率论、统计学、语言学等工程上常用的知识介绍,然后介绍自然语言处理的核心理论和案例解析,最后通过几个综合性的例子完成自然语言处理的学习和深入。

目录

  • 版权信息
  • 主要作者简介
  • 前言
  • 读者服务
  • 第1章 基础入门
  • 1.1 什么是自然语言处理
  • 1.1.1 自然语言处理概述
  • 1.1.2 自然语言处理的发展历史
  • 1.1.3 自然语言处理的工作原理
  • 1.1.4 自然语言处理的应用前景
  • 1.2 开发工具与环境
  • 1.2.1 Sublime Text和Anaconda介绍
  • 1.2.2 开发环境的安装与配置
  • 1.3 实战:第一个小程序的诞生
  • 1.3.1 实例介绍
  • 1.3.2 源码实现
  • 第2章 快速上手Python
  • 2.1 初识Python编程语言
  • 2.1.1 Python概述
  • 2.1.2 Python能做什么
  • 2.1.3 Python的语法和特点
  • 2.2 Python进阶
  • 2.2.1 Hello World
  • 2.2.2 语句和控制流
  • 2.2.3 函数
  • 2.2.4 List列表
  • 2.2.5 元组
  • 2.2.6 set集合
  • 2.2.7 字典
  • 2.2.8 面向对象编程:类
  • 2.2.9 标准库
  • 2.3 Python深入
  • 2.3.1 Web框架
  • 2.3.2 科学计算
  • 2.3.3 GUI
  • 2.3.4 其他库
  • 第3章 线性代数
  • 3.1 线性代数介绍
  • 3.2 向量
  • 3.2.1 向量定义
  • 3.2.2 向量表示
  • 3.2.3 向量定理
  • 3.2.4 向量运算
  • 3.3 矩阵
  • 3.3.1 矩阵定义
  • 3.3.2 矩阵表示
  • 3.3.3 矩阵运算
  • 3.3.4 线性方程组
  • 3.3.5 行列式
  • 3.3.6 特征值和特征向量
  • 3.4 距离计算
  • 3.4.1 余弦距离
  • 3.4.2 欧氏距离
  • 3.4.3 曼哈顿距离
  • 3.4.4 明可夫斯基距离
  • 3.4.5 切比雪夫距离
  • 3.4.6 杰卡德距离
  • 3.4.7 汉明距离
  • 3.4.8 标准化欧式距离
  • 3.4.9 皮尔逊相关系数
  • 第4章 概率论
  • 4.1 概率论介绍
  • 4.2 事件
  • 4.2.1 随机试验
  • 4.2.2 随机事件和样本空间
  • 4.2.3 事件的计算
  • 4.3 概率
  • 4.4 概率公理
  • 4.5 条件概率和全概率
  • 4.5.1 条件概率
  • 4.5.2 全概率
  • 4.6 贝叶斯定理
  • 4.7 信息论
  • 4.7.1 信息论的基本概念
  • 4.7.2 信息度量
  • 第5章 统计学
  • 5.1 图形可视化
  • 5.1.1 饼图
  • 5.1.2 条形图
  • 5.1.3 热力图
  • 5.1.4 折线图
  • 5.1.5 箱线图
  • 5.1.6 散点图
  • 5.1.7 雷达图
  • 5.1.8 仪表盘
  • 5.1.9 可视化图表用法
  • 5.2 数据度量标准
  • 5.2.1 平均值
  • 5.2.2 中位数
  • 5.2.3 众数
  • 5.2.4 期望
  • 5.2.5 方差
  • 5.2.6 标准差
  • 5.2.7 标准分
  • 5.3 概率分布
  • 5.3.1 几何分布
  • 5.3.2 二项分布
  • 5.3.3 正态分布
  • 5.3.4 泊松分布
  • 5.4 统计假设检验
  • 5.5 相关和回归
  • 5.5.1 相关
  • 5.5.2 回归
  • 5.5.3 相关和回归的联系
  • 第6章 语言学
  • 6.1 语音
  • 6.1.1 什么是语音
  • 6.1.2 语音的三大属性
  • 6.1.3 语音单位
  • 6.1.4 记音符号
  • 6.1.5 共时语流音变
  • 6.2 词汇
  • 6.2.1 什么是词汇
  • 6.2.2 词汇单位
  • 6.2.3 词的构造
  • 6.2.4 词义及其分类
  • 6.2.5 义项与义素
  • 6.2.6 语义场
  • 6.2.7 词汇的构成
  • 6.3 语法
  • 6.3.1 什么是语法
  • 6.3.2 词类
  • 6.3.3 短语
  • 6.3.4 单句
  • 6.3.5 复句
  • 第7章 自然语言处理
  • 7.1 自然语言处理的任务和限制
  • 7.2 自然语言处理的主要技术范畴
  • 7.2.1 语音合成
  • 7.2.2 语音识别
  • 7.2.3 中文自动分词
  • 7.2.4 词性标注
  • 7.2.5 句法分析
  • 7.2.6 文本分类
  • 7.2.7 文本挖掘
  • 7.2.8 信息抽取
  • 7.2.9 问答系统
  • 7.2.10 机器翻译
  • 7.2.11 文本情感分析
  • 7.2.12 自动摘要
  • 7.2.13 文字蕴涵
  • 7.3 自然语言处理的难点
  • 7.3.1 语言环境复杂
  • 7.3.2 文本结构形式多样
  • 7.3.3 边界识别限制
  • 7.3.4 词义消歧
  • 7.3.5 指代消解
  • 7.4 自然语言处理展望
  • 第8章 语料库
  • 8.1 语料库浅谈
  • 8.2 语料库深入
  • 8.3 自然语言处理工具包:NLTK
  • 8.3.1 NLTK简介
  • 8.3.2 安装NLTK
  • 8.3.3 使用NLTK
  • 8.3.4 在Python NLTK下使用Stanford NLP
  • 8.4 获取语料库
  • 8.4.1 国内外著名语料库
  • 8.4.2 网络数据获取
  • 8.4.3 NLTK获取语料库
  • 8.5 综合案例:走进大秦帝国
  • 8.5.1 数据采集和预处理
  • 8.5.2 构建本地语料库
  • 8.5.3 大秦帝国语料操作
  • 第9章 中文自动分词
  • 9.1 中文分词简介
  • 9.2 中文分词的特点和难点
  • 9.3 常见中文分词方法
  • 9.4 典型中文分词工具
  • 9.4.1 HanLP中文分词
  • 9.4.2 其他中文分词工具
  • 9.5 结巴中文分词
  • 9.5.1 基于Python的结巴中文分词
  • 9.5.2 结巴分词工具详解
  • 9.5.3 结巴分词核心内容
  • 9.5.4 结巴分词基本用法
  • 第10章 数据预处理
  • 10.1 数据清洗
  • 10.2 分词处理
  • 10.3 特征构造
  • 10.4 特征降维与选择
  • 10.4.1 特征降维
  • 10.4.2 特征选择
  • 10.5 简单实例
  • 10.6 本章小结
  • 第11章 马尔可夫模型
  • 11.1 马尔可夫链
  • 11.1.1 马尔可夫简介
  • 11.1.2 马尔可夫链的基本概念
  • 11.2 隐马尔可夫模型
  • 11.2.1 形式化描述
  • 11.2.2 数学形式描述
  • 11.3 向前算法解决HMM似然度
  • 11.3.1 向前算法定义
  • 11.3.2 向前算法原理
  • 11.3.3 现实应用:预测成都天气的冷热
  • 11.4 文本序列标注案例:Viterbi算法
  • 第12章 条件随机场
  • 12.1 条件随机场介绍
  • 12.2 简单易懂的条件随机场
  • 12.2.1 CRF的形式化表示
  • 12.2.2 CRF的公式化表示
  • 12.2.3 深度理解条件随机场
  • 第13章 模型评估
  • 13.1 从统计角度介绍模型概念
  • 13.1.1 算法模型
  • 13.1.2 模型评估和模型选择
  • 13.1.3 过拟合与欠拟合的模型选择
  • 13.2 模型评估与选择
  • 13.2.1 模型评估的概念
  • 13.2.2 模型评估的评测指标
  • 13.2.3 以词性标注为例分析模型评估
  • 13.2.4 模型评估的几种方法
  • 13.3 ROC曲线比较学习器模型
  • 第14章 命名实体识别
  • 14.1 命名实体识别概述
  • 14.2 命名实体识别的特点与难点
  • 14.3 命名实体识别方法
  • 14.4 中文命名实体识别的核心技术
  • 14.5 展望
  • 第15章 自然语言处理实战
  • 15.1 GitHub数据提取与可视化分析
  • 15.1.1 了解GitHub的API
  • 15.1.2 使用NetworkX作图
  • 15.1.3 使用NetworkX构建兴趣图
  • 15.1.4 NetWorkX部分统计指标
  • 15.1.5 构建GitHub的兴趣图
  • 15.1.6 可视化
  • 15.2 微博话题爬取与存储分析
  • 15.2.1 数据采集
  • 15.2.2 数据提取
  • 15.2.3 数据存储
  • 15.2.4 项目运行与分析
  • 附录A Python与其他语言调用
  • 附录B Git项目上传简易教程
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。