展开全部

主编推荐语

带你了解特征工程的完整过程,使机器学习更加系统、高效。

内容简介

从理解数据开始——机器学习模型的成功取决于如何利用不同类型的特征,例如连续特征、类属特征等。你将了解何时纳入一项特征、何时忽略一项特征,以及其中的原因。你会学习将问题陈述转换为有用的新特征,还会学习如何提供商业需求驱动的特征以及数学见解。最后,你将学习如何在自己的机器上进行机器学习,自动学习数据中令人惊叹的特征。

目录

  • 版权信息
  • 前言
  • 目标读者
  • 本书内容
  • 阅读须知
  • 下载示例代码
  • 下载本书彩色图片
  • 排版约定
  • 联系我们
  • 评论
  • 电子书
  • 第1章 特征工程简介
  • 1.1 激动人心的例子:AI驱动的聊天
  • 1.2 特征工程的重要性
  • 1.3 特征工程是什么
  • 数据和机器学习的基础知识
  • 1.4 机器学习算法和特征工程的评估
  • 1.4.1 特征工程的例子:真的有人能预测天气吗
  • 1.4.2 特征工程的评估步骤
  • 1.4.3 评估监督学习算法
  • 1.4.4 评估无监督学习算法
  • 1.5 特征理解:我的数据集里有什么
  • 1.6 特征增强:清洗数据
  • 1.7 特征选择:对坏属性说不
  • 1.8 特征构建:能生成新特征吗
  • 1.9 特征转换:数学显神通
  • 1.10 特征学习:以AI促AI
  • 1.11 小结
  • 第2章 特征理解:我的数据集里有什么
  • 2.1 数据结构的有无
  • 非结构化数据的例子:服务器日志
  • 2.2 定量数据和定性数据
  • 按工作分类的工资
  • 2.3 数据的4个等级
  • 2.3.1 定类等级
  • 2.3.2 定序等级
  • 2.3.3 定距等级
  • 2.3.4 定比等级
  • 2.4 数据等级总结
  • 2.5 小结
  • 第3章 特征增强:清洗数据
  • 3.1 识别数据中的缺失值
  • 3.1.1 皮马印第安人糖尿病预测数据集
  • 3.1.2 探索性数据分析
  • 3.2 处理数据集中的缺失值
  • 3.2.1 删除有害的行
  • 3.2.2 填充缺失值
  • 3.2.3 在机器学习流水线中填充值
  • 3.3 标准化和归一化
  • 3.3.1 分数标准化
  • 3.3.2 min-max标准化
  • 3.3.3 行归一化
  • 3.3.4 整合起来
  • 3.4 小结
  • 第4章 特征构建:我能生成新特征吗
  • 4.1 检查数据集
  • 4.2 填充分类特征
  • 4.2.1 自定义填充器
  • 4.2.2 自定义分类填充器
  • 4.2.3 自定义定量填充器
  • 4.3 编码分类变量
  • 4.3.1 定类等级的编码
  • 4.3.2 定序等级的编码
  • 4.3.3 将连续特征分箱
  • 4.3.4 创建流水线
  • 4.4 扩展数值特征
  • 4.4.1 根据胸部加速度计识别动作的数据集
  • 4.4.2 多项式特征
  • 4.5 针对文本的特征构建
  • 4.5.1 词袋法
  • 4.5.2 CountVectorizer
  • 4.5.3 TF-IDF向量化器
  • 4.5.4 在机器学习流水线中使用文本
  • 4.6 小结
  • 第5章 特征选择:对坏属性说不
  • 5.1 在特征工程中实现更好的性能
  • 案例分析:信用卡逾期数据集
  • 5.2 创建基准机器学习流水线
  • 5.3 特征选择的类型
  • 5.3.1 基于统计的特征选择
  • 5.3.2 基于模型的特征选择
  • 5.4 选用正确的特征选择方法
  • 5.5 小结
  • 第6章 特征转换:数学显神通
  • 6.1 维度缩减:特征转换、特征选择与特征构建
  • 6.2 主成分分析
  • 6.2.1 PCA的工作原理
  • 6.2.2 鸢尾花数据集的PCA——手动处理
  • 6.2.3 scikit-learn的PCA
  • 6.2.4 中心化和缩放对PCA的影响
  • 6.2.5 深入解释主成分
  • 6.3 线性判别分析
  • 6.3.1 LDA的工作原理
  • 6.3.2 在scikit-learn中使用LDA
  • 6.4 LDA与PCA:使用鸢尾花数据集
  • 6.5 小结
  • 第7章 特征学习:以AI促AI
  • 7.1 数据的参数假设
  • 7.1.1 非参数谬误
  • 7.1.2 本章的算法
  • 7.2 受限玻尔兹曼机
  • 7.2.1 不一定降维
  • 7.2.2 受限玻尔兹曼机的图
  • 7.2.3 玻尔兹曼机的限制
  • 7.2.4 数据重建
  • 7.2.5 MNIST数据集
  • 7.3 伯努利受限玻尔兹曼机
  • 7.3.1 从MNIST中提取PCA主成分
  • 7.3.2 从MNIST中提取RBM特征
  • 7.4 在机器学习流水线中应用RBM
  • 7.4.1 对原始像素值应用线性模型
  • 7.4.2 对提取的PCA主成分应用线性模型
  • 7.4.3 对提取的RBM特征应用线性模型
  • 7.5 学习文本特征:词向量
  • 7.5.1 词嵌入
  • 7.5.2 两种词嵌入方法:Word2vec和GloVe
  • 7.5.3 Word2vec:另一个浅层神经网络
  • 7.5.4 创建Word2vec词嵌入的gensim包
  • 7.5.5 词嵌入的应用:信息检索
  • 7.6 小结
  • 第8章 案例分析
  • 8.1 案例1:面部识别
  • 8.1.1 面部识别的应用
  • 8.1.2 数据
  • 8.1.3 数据探索
  • 8.1.4 应用面部识别
  • 8.2 案例2:预测酒店评论数据的主题
  • 8.2.1 文本聚类的应用
  • 8.2.2 酒店评论数据
  • 8.2.3 数据探索
  • 8.2.4 聚类模型
  • 8.2.5 SVD与PCA主成分
  • 8.2.6 潜在语义分析
  • 8.3 小结
  • 看完了
展开全部

评分及书评

评分不足
2个评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。