计算机
类型
可以朗读
语音朗读
178千字
字数
2021-02-01
发行日期
展开全部
主编推荐语
Python机器学习8章:基础知识、文本分析、预测算法及最佳实践。
内容简介
全书共有8 章。第1 章讲解了Python和机器学习的基础知识,第2~7章通过多个案例详细讲解了文本分析算法、朴素贝叶斯、支持向量机、对率回归及回归算法等知识,案例主要包括探索新闻组数据集、检测垃圾邮件、微新闻话题分类、预测点击率以及预测股价等。第8章是最佳实践,主要介绍之前章节的难点、易错点,以帮助读者查漏补缺。
目录
- 版权信息
- 内容提要
- 作者简介
- 审稿人简介
- 译者序
- 译者简介
- 前言
- 资源与支持
- 第1章 开始Python和机器学习之旅
- 1.1 什么是机器学习?我们为什么需要它
- 1.2 机器学习概览
- 1.3 机器学习算法发展简史
- 1.4 从数据中泛化的能力
- 1.5 过拟合、欠拟合及偏差和方差的权衡
- 1.5.1 用交叉检验避免过拟合
- 1.5.2 用正则化避免过拟合
- 1.6 通过特征选取和降维避免过拟合
- 1.7 预处理、探索和特征工程
- 1.7.1 缺失值
- 1.7.2 标签编码
- 1.7.3 一位有效编码
- 1.7.4 调整数值范围
- 1.7.5 多项式特征
- 1.7.6 幂次转换
- 1.7.7 面元划分
- 1.8 模型组合
- 1.8.1 Bagging
- 1.8.2 Boosting
- 1.8.3 Stacking
- 1.8.4 Blending
- 1.8.5 投票和平均法
- 1.9 安装和设置软件
- 1.10 问题解决和寻求帮助
- 1.11 小结
- 第2章 用文本分析算法探索20个新闻组数据集
- 2.1 什么是NLP
- 2.2 强大的Python NLP库之旅
- 2.3 新闻组数据集
- 2.4 获取数据
- 2.5 思考特征
- 2.6 可视化
- 2.7 数据预处理
- 2.8 聚类
- 2.9 话题建模
- 2.10 小结
- 第3章 用朴素贝叶斯检测垃圾邮件
- 3.1 开始分类之旅
- 3.2 分类的类型
- 3.3 文本分类应用
- 3.4 探索朴素贝叶斯
- 3.5 贝叶斯定理实例讲解
- 3.6 朴素贝叶斯原理
- 3.7 朴素贝叶斯的实现
- 3.8 分类器性能评估
- 3.9 模型调试和交叉检验
- 3.10 小结
- 第4章 用支持向量机为新闻话题分类
- 4.1 回顾先前内容和介绍逆文档频率
- 4.2 SVM
- 4.2.1 SVM的原理
- 4.2.2 SVM的实现
- 4.2.3 SVM内核
- 4.2.4 线性和RBF内核的选择
- 4.3 用SVM为新闻话题分类
- 4.4 更多示例——用SVM根据胎心宫缩监护数据为胎儿状态分类
- 4.5 小结
- 第5章 用基于树的算法预测点击率
- 5.1 广告点击率预测简介
- 5.2 两种不同类型的数据:数值型和类别型
- 5.3 决策树分类器
- 5.3.1 构造决策树
- 5.3.2 度量划分的标准
- 5.3.3 实现决策树
- 5.4 用决策树预测点击率
- 5.5 随机森林——决策树的特征装袋技术
- 5.6 小结
- 第6章 用对率回归预测点击率
- 6.1 一位有效编码——将类别型特征转换为数值型特征
- 6.2 对率回归分类器
- 6.2.1 从对率函数说起
- 6.2.2 对率回归的原理
- 6.2.3 用梯度下降方法训练对率回归模型
- 6.3 用梯度下降对率回归预测点击率
- 6.3.1 训练随机梯度下降对率回归模型
- 6.3.2 训练带正则项的对率回归模型
- 6.3.3 用线上学习方法,在大型数据集上训练
- 6.3.4 多分类
- 6.4 用随机森林选择参数
- 6.5 小结
- 第7章 用回归算法预测股价
- 7.1 股市和股价的简介
- 7.2 什么是回归
- 7.3 用回归算法预测股价
- 7.3.1 特征工程
- 7.3.2 数据获取和特征生成
- 7.3.3 线性回归
- 7.3.4 决策树回归
- 7.3.5 支持向量回归
- 7.3.6 回归性能评估
- 7.3.7 用回归算法预测股价
- 7.4 小结
- 第8章 最佳实践
- 8.1 机器学习工作流
- 8.2 数据准备阶段的最佳实践
- 8.2.1 最佳实践1——理解透彻项目的目标
- 8.2.2 最佳实践2——采集所有相关字段
- 8.2.3 最佳实践3——字段值保持一致
- 8.2.4 最佳实践4——缺失值处理
- 8.3 训练集生成阶段的最佳实践
- 8.3.1 最佳实践5——用数值代替类别型特征
- 8.3.2 最佳实践6——决定是否对类别型特征编码
- 8.3.3 最佳实践7——是否要选择特征,怎么选
- 8.3.4 最佳实践8——是否降维,怎么降
- 8.3.5 最佳实践9——是否缩放特征,怎么缩放
- 8.3.6 最佳实践10——带着领域知识做特征工程
- 8.3.7 最佳实践11——缺少领域知识的前提下,做特征工程
- 8.3.8 最佳实践12——记录每个特征的生成方法
- 8.4 算法训练、评估和选择阶段的最佳实践
- 8.4.1 最佳实践13——选择从正确的算法开始
- 8.4.2 最佳实践14——降低过拟合
- 8.4.3 最佳实践15——诊断过拟合和欠拟合
- 8.5 系统部署和监控阶段的最佳实践
- 8.5.1 最佳实践16——保存、加载和重用模型
- 8.5.2 最佳实践17——监控模型性能
- 8.5.3 最佳实践18——定期更新模型
- 8.6 小结
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。