展开全部

主编推荐语

Python机器学习8章:基础知识、文本分析、预测算法及最佳实践。

内容简介

全书共有8 章。第1 章讲解了Python和机器学习的基础知识,第2~7章通过多个案例详细讲解了文本分析算法、朴素贝叶斯、支持向量机、对率回归及回归算法等知识,案例主要包括探索新闻组数据集、检测垃圾邮件、微新闻话题分类、预测点击率以及预测股价等。第8章是最佳实践,主要介绍之前章节的难点、易错点,以帮助读者查漏补缺。

目录

  • 版权信息
  • 内容提要
  • 作者简介
  • 审稿人简介
  • 译者序
  • 译者简介
  • 前言
  • 资源与支持
  • 第1章 开始Python和机器学习之旅
  • 1.1 什么是机器学习?我们为什么需要它
  • 1.2 机器学习概览
  • 1.3 机器学习算法发展简史
  • 1.4 从数据中泛化的能力
  • 1.5 过拟合、欠拟合及偏差和方差的权衡
  • 1.5.1 用交叉检验避免过拟合
  • 1.5.2 用正则化避免过拟合
  • 1.6 通过特征选取和降维避免过拟合
  • 1.7 预处理、探索和特征工程
  • 1.7.1 缺失值
  • 1.7.2 标签编码
  • 1.7.3 一位有效编码
  • 1.7.4 调整数值范围
  • 1.7.5 多项式特征
  • 1.7.6 幂次转换
  • 1.7.7 面元划分
  • 1.8 模型组合
  • 1.8.1 Bagging
  • 1.8.2 Boosting
  • 1.8.3 Stacking
  • 1.8.4 Blending
  • 1.8.5 投票和平均法
  • 1.9 安装和设置软件
  • 1.10 问题解决和寻求帮助
  • 1.11 小结
  • 第2章 用文本分析算法探索20个新闻组数据集
  • 2.1 什么是NLP
  • 2.2 强大的Python NLP库之旅
  • 2.3 新闻组数据集
  • 2.4 获取数据
  • 2.5 思考特征
  • 2.6 可视化
  • 2.7 数据预处理
  • 2.8 聚类
  • 2.9 话题建模
  • 2.10 小结
  • 第3章 用朴素贝叶斯检测垃圾邮件
  • 3.1 开始分类之旅
  • 3.2 分类的类型
  • 3.3 文本分类应用
  • 3.4 探索朴素贝叶斯
  • 3.5 贝叶斯定理实例讲解
  • 3.6 朴素贝叶斯原理
  • 3.7 朴素贝叶斯的实现
  • 3.8 分类器性能评估
  • 3.9 模型调试和交叉检验
  • 3.10 小结
  • 第4章 用支持向量机为新闻话题分类
  • 4.1 回顾先前内容和介绍逆文档频率
  • 4.2 SVM
  • 4.2.1 SVM的原理
  • 4.2.2 SVM的实现
  • 4.2.3 SVM内核
  • 4.2.4 线性和RBF内核的选择
  • 4.3 用SVM为新闻话题分类
  • 4.4 更多示例——用SVM根据胎心宫缩监护数据为胎儿状态分类
  • 4.5 小结
  • 第5章 用基于树的算法预测点击率
  • 5.1 广告点击率预测简介
  • 5.2 两种不同类型的数据:数值型和类别型
  • 5.3 决策树分类器
  • 5.3.1 构造决策树
  • 5.3.2 度量划分的标准
  • 5.3.3 实现决策树
  • 5.4 用决策树预测点击率
  • 5.5 随机森林——决策树的特征装袋技术
  • 5.6 小结
  • 第6章 用对率回归预测点击率
  • 6.1 一位有效编码——将类别型特征转换为数值型特征
  • 6.2 对率回归分类器
  • 6.2.1 从对率函数说起
  • 6.2.2 对率回归的原理
  • 6.2.3 用梯度下降方法训练对率回归模型
  • 6.3 用梯度下降对率回归预测点击率
  • 6.3.1 训练随机梯度下降对率回归模型
  • 6.3.2 训练带正则项的对率回归模型
  • 6.3.3 用线上学习方法,在大型数据集上训练
  • 6.3.4 多分类
  • 6.4 用随机森林选择参数
  • 6.5 小结
  • 第7章 用回归算法预测股价
  • 7.1 股市和股价的简介
  • 7.2 什么是回归
  • 7.3 用回归算法预测股价
  • 7.3.1 特征工程
  • 7.3.2 数据获取和特征生成
  • 7.3.3 线性回归
  • 7.3.4 决策树回归
  • 7.3.5 支持向量回归
  • 7.3.6 回归性能评估
  • 7.3.7 用回归算法预测股价
  • 7.4 小结
  • 第8章 最佳实践
  • 8.1 机器学习工作流
  • 8.2 数据准备阶段的最佳实践
  • 8.2.1 最佳实践1——理解透彻项目的目标
  • 8.2.2 最佳实践2——采集所有相关字段
  • 8.2.3 最佳实践3——字段值保持一致
  • 8.2.4 最佳实践4——缺失值处理
  • 8.3 训练集生成阶段的最佳实践
  • 8.3.1 最佳实践5——用数值代替类别型特征
  • 8.3.2 最佳实践6——决定是否对类别型特征编码
  • 8.3.3 最佳实践7——是否要选择特征,怎么选
  • 8.3.4 最佳实践8——是否降维,怎么降
  • 8.3.5 最佳实践9——是否缩放特征,怎么缩放
  • 8.3.6 最佳实践10——带着领域知识做特征工程
  • 8.3.7 最佳实践11——缺少领域知识的前提下,做特征工程
  • 8.3.8 最佳实践12——记录每个特征的生成方法
  • 8.4 算法训练、评估和选择阶段的最佳实践
  • 8.4.1 最佳实践13——选择从正确的算法开始
  • 8.4.2 最佳实践14——降低过拟合
  • 8.4.3 最佳实践15——诊断过拟合和欠拟合
  • 8.5 系统部署和监控阶段的最佳实践
  • 8.5.1 最佳实践16——保存、加载和重用模型
  • 8.5.2 最佳实践17——监控模型性能
  • 8.5.3 最佳实践18——定期更新模型
  • 8.6 小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。