科技
类型
7.3
豆瓣评分
可以朗读
语音朗读
173千字
字数
2019-05-01
发行日期
展开全部
主编推荐语
带你了解特征工程的完整过程,使机器学习更加系统、高效。
内容简介
从理解数据开始——机器学习模型的成功取决于如何利用不同类型的特征,例如连续特征、类属特征等。你将了解何时纳入一项特征、何时忽略一项特征,以及其中的原因。你会学习将问题陈述转换为有用的新特征,还会学习如何提供商业需求驱动的特征以及数学见解。最后,你将学习如何在自己的机器上进行机器学习,自动学习数据中令人惊叹的特征。
目录
- 版权信息
- 前言
- 目标读者
- 本书内容
- 阅读须知
- 下载示例代码
- 下载本书彩色图片
- 排版约定
- 联系我们
- 评论
- 电子书
- 第1章 特征工程简介
- 1.1 激动人心的例子:AI驱动的聊天
- 1.2 特征工程的重要性
- 1.3 特征工程是什么
- 数据和机器学习的基础知识
- 1.4 机器学习算法和特征工程的评估
- 1.4.1 特征工程的例子:真的有人能预测天气吗
- 1.4.2 特征工程的评估步骤
- 1.4.3 评估监督学习算法
- 1.4.4 评估无监督学习算法
- 1.5 特征理解:我的数据集里有什么
- 1.6 特征增强:清洗数据
- 1.7 特征选择:对坏属性说不
- 1.8 特征构建:能生成新特征吗
- 1.9 特征转换:数学显神通
- 1.10 特征学习:以AI促AI
- 1.11 小结
- 第2章 特征理解:我的数据集里有什么
- 2.1 数据结构的有无
- 非结构化数据的例子:服务器日志
- 2.2 定量数据和定性数据
- 按工作分类的工资
- 2.3 数据的4个等级
- 2.3.1 定类等级
- 2.3.2 定序等级
- 2.3.3 定距等级
- 2.3.4 定比等级
- 2.4 数据等级总结
- 2.5 小结
- 第3章 特征增强:清洗数据
- 3.1 识别数据中的缺失值
- 3.1.1 皮马印第安人糖尿病预测数据集
- 3.1.2 探索性数据分析
- 3.2 处理数据集中的缺失值
- 3.2.1 删除有害的行
- 3.2.2 填充缺失值
- 3.2.3 在机器学习流水线中填充值
- 3.3 标准化和归一化
- 3.3.1 分数标准化
- 3.3.2 min-max标准化
- 3.3.3 行归一化
- 3.3.4 整合起来
- 3.4 小结
- 第4章 特征构建:我能生成新特征吗
- 4.1 检查数据集
- 4.2 填充分类特征
- 4.2.1 自定义填充器
- 4.2.2 自定义分类填充器
- 4.2.3 自定义定量填充器
- 4.3 编码分类变量
- 4.3.1 定类等级的编码
- 4.3.2 定序等级的编码
- 4.3.3 将连续特征分箱
- 4.3.4 创建流水线
- 4.4 扩展数值特征
- 4.4.1 根据胸部加速度计识别动作的数据集
- 4.4.2 多项式特征
- 4.5 针对文本的特征构建
- 4.5.1 词袋法
- 4.5.2 CountVectorizer
- 4.5.3 TF-IDF向量化器
- 4.5.4 在机器学习流水线中使用文本
- 4.6 小结
- 第5章 特征选择:对坏属性说不
- 5.1 在特征工程中实现更好的性能
- 案例分析:信用卡逾期数据集
- 5.2 创建基准机器学习流水线
- 5.3 特征选择的类型
- 5.3.1 基于统计的特征选择
- 5.3.2 基于模型的特征选择
- 5.4 选用正确的特征选择方法
- 5.5 小结
- 第6章 特征转换:数学显神通
- 6.1 维度缩减:特征转换、特征选择与特征构建
- 6.2 主成分分析
- 6.2.1 PCA的工作原理
- 6.2.2 鸢尾花数据集的PCA——手动处理
- 6.2.3 scikit-learn的PCA
- 6.2.4 中心化和缩放对PCA的影响
- 6.2.5 深入解释主成分
- 6.3 线性判别分析
- 6.3.1 LDA的工作原理
- 6.3.2 在scikit-learn中使用LDA
- 6.4 LDA与PCA:使用鸢尾花数据集
- 6.5 小结
- 第7章 特征学习:以AI促AI
- 7.1 数据的参数假设
- 7.1.1 非参数谬误
- 7.1.2 本章的算法
- 7.2 受限玻尔兹曼机
- 7.2.1 不一定降维
- 7.2.2 受限玻尔兹曼机的图
- 7.2.3 玻尔兹曼机的限制
- 7.2.4 数据重建
- 7.2.5 MNIST数据集
- 7.3 伯努利受限玻尔兹曼机
- 7.3.1 从MNIST中提取PCA主成分
- 7.3.2 从MNIST中提取RBM特征
- 7.4 在机器学习流水线中应用RBM
- 7.4.1 对原始像素值应用线性模型
- 7.4.2 对提取的PCA主成分应用线性模型
- 7.4.3 对提取的RBM特征应用线性模型
- 7.5 学习文本特征:词向量
- 7.5.1 词嵌入
- 7.5.2 两种词嵌入方法:Word2vec和GloVe
- 7.5.3 Word2vec:另一个浅层神经网络
- 7.5.4 创建Word2vec词嵌入的gensim包
- 7.5.5 词嵌入的应用:信息检索
- 7.6 小结
- 第8章 案例分析
- 8.1 案例1:面部识别
- 8.1.1 面部识别的应用
- 8.1.2 数据
- 8.1.3 数据探索
- 8.1.4 应用面部识别
- 8.2 案例2:预测酒店评论数据的主题
- 8.2.1 文本聚类的应用
- 8.2.2 酒店评论数据
- 8.2.3 数据探索
- 8.2.4 聚类模型
- 8.2.5 SVD与PCA主成分
- 8.2.6 潜在语义分析
- 8.3 小结
- 看完了
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。