展开全部

主编推荐语

如何把机器学习应用到真实世界的数据和相关领域中,这本书提供正确的方法论、流程、应用软件以及分析。

内容简介

本书涵盖了机器学习中的经典技术,如分类、聚类、降维、异常检测、半监督学习和主动学习。同时介绍了近期高深的主题,包括流数据学习、深度学习,以及大数据学习的挑战。每一章指定一个主题,包括对于实例研究,介绍前沿的基于Java的工具和软件,以及完整的知识发现周期:数据采集、实验设计、建模、结果及评估。每一章都是独立的,提供了很大的使用灵活性。附带的网站提供了源码和数据。对于学生和数据分析从业员来说,可以直接用刚学到的方法进行实验,或者通过将这些方法应用到真实环境中,加深对它们的理解。

目录

  • 版权信息
  • 推荐序
  • 译者序
  • 前言
  • 作者简介
  • 审校者简介
  • 第1章 机器学习回顾
  • 1.1 机器学习历史和定义
  • 1.2 哪些不属于机器学习
  • 1.3 机器学习概念和术语
  • 1.4 机器学习类型及其子类
  • 1.5 用于机器学习的数据集
  • 1.6 机器学习的应用
  • 1.7 机器学习中的实际问题
  • 1.8 机器学习角色与过程
  • 1.8.1 角色
  • 1.8.2 过程
  • 1.9 机器学习工具和数据集
  • 1.10 小结
  • 第2章 监督学习在现实世界中的实践方法
  • 2.1 正式描述和符号
  • 2.1.1 数据质量分析
  • 2.1.2 描述性数据分析
  • 2.1.3 可视化分析
  • 2.2 数据转换与预处理
  • 2.2.1 特征构造
  • 2.2.2 处理缺失值
  • 2.2.3 离群值
  • 2.2.4 离散化
  • 2.2.5 数据采样
  • 2.2.6 训练集、验证集和测试集
  • 2.3 特征关联分析与降维
  • 2.3.1 特征搜索技术
  • 2.3.2 特征评估技术
  • 2.4 模型建立
  • 2.4.1 线性模型
  • 2.4.2 非线性模型
  • 2.4.3 集成学习和元学习器
  • 2.5 模型评价、评估和比较
  • 2.5.1 模型评价
  • 2.5.2 模型评估指标
  • 2.5.3 模型比较
  • 2.6 Horse Colic分类案例研究
  • 2.6.1 业务问题
  • 2.6.2 机器学习映射
  • 2.6.3 数据分析
  • 2.6.4 监督学习实验
  • 2.6.5 结果、观察和分析
  • 2.7 小结
  • 2.8 参考文献
  • 第3章 无监督机器学习技术
  • 3.1 与监督学习共同存在的问题
  • 3.2 无监督学习的特定问题
  • 3.3 特征分析和降维
  • 3.3.1 符号
  • 3.3.2 线性方法
  • 3.3.3 非线性方法
  • 3.4 聚类
  • 3.4.1 聚类算法
  • 3.4.2 谱聚类
  • 3.4.3 仿射传播
  • 3.4.4 聚类的验证和评估
  • 3.5 离群值或异常值检测
  • 3.5.1 离群值算法
  • 3.5.2 离群值评估技术
  • 3.6 实际案例研究
  • 3.6.1 工具和软件
  • 3.6.2 业务问题
  • 3.6.3 机器学习映射
  • 3.6.4 数据收集
  • 3.6.5 数据质量分析
  • 3.6.6 数据采样和转换
  • 3.6.7 特征分析和降维
  • 3.6.8 聚类模型、结果和评估
  • 3.6.9 离群值模型、结果和评估
  • 3.7 小结
  • 3.8 参考文献
  • 第4章 半监督学习和主动学习
  • 4.1 半监督学习
  • 4.1.1 表示、符号和假设条件
  • 4.1.2 半监督学习技术
  • 4.1.3 半监督学习的案例研究
  • 4.2 主动学习
  • 4.2.1 表示和符号
  • 4.2.2 主动学习场景
  • 4.2.3 主动学习方法
  • 4.2.4 不确定性采样
  • 4.2.5 版本空间采样
  • 4.2.6 数据分布采样
  • 4.3 主动学习中的案例研究
  • 4.3.1 工具和软件
  • 4.3.2 业务问题
  • 4.3.3 机器学习映射
  • 4.3.4 数据采集
  • 4.3.5 数据采样和转换
  • 4.3.6 特征分析和降维
  • 4.3.7 模型、结果和评估
  • 4.3.8 主动学习结果分析
  • 4.4 小结
  • 4.5 参考文献
  • 第5章 实时流机器学习
  • 5.1 假设条件和数学符号
  • 5.2 基本的流处理和计算技术
  • 5.2.1 流计算
  • 5.2.2 滑动窗口
  • 5.2.3 采样
  • 5.3 概念漂移和漂移探测
  • 5.3.1 数据管理
  • 5.3.2 局部内存
  • 5.4 增量监督学习
  • 5.4.1 建模技术
  • 5.4.2 在线环境的验证、评估和比较
  • 5.5 使用聚类的增量无监督学习
  • 5.6 使用离群值检测的无监督学习
  • 5.6.1 基于分区的聚类离群值检测
  • 5.6.2 基于距离的聚类离群值检测
  • 5.7 流学习案例研究
  • 5.7.1 工具和软件
  • 5.7.2 业务问题
  • 5.7.3 机器学习映射
  • 5.7.4 数据采集
  • 5.7.5 数据采样和转换
  • 5.7.6 模型、结果和评估
  • 5.7.7 流学习结果分析
  • 5.8 小结
  • 5.9 参考文献
  • 第6章 概率图建模
  • 6.1 回顾概率
  • 6.2 图的概念
  • 6.2.1 图的结构和属性
  • 6.2.2 子图和团
  • 6.2.3 路、迹和环
  • 6.3 贝叶斯网络
  • 6.3.1 表示
  • 6.3.2 推断
  • 6.3.3 学习
  • 6.4 马尔可夫网络和条件随机场
  • 6.4.1 表示
  • 6.4.2 推断
  • 6.4.3 学习
  • 6.4.4 条件随机场
  • 6.5 特殊网络
  • 6.5.1 树增强型网络
  • 6.5.2 马尔可夫链
  • 6.6 工具和使用
  • 6.6.1 OpenMarkov
  • 6.6.2 Weka贝叶斯网络图形界面
  • 6.7 案例研究
  • 6.7.1 业务问题
  • 6.7.2 机器学习映射
  • 6.7.3 数据采样和转换
  • 6.7.4 特征分析
  • 6.7.5 模型、结果和评估
  • 6.7.6 结果分析
  • 6.8 小结
  • 6.9 参考文献
  • 第7章 深度学习
  • 7.1 多层前馈神经网络
  • 7.1.1 输入、神经元、激活函数和数学符号
  • 7.1.2 多层神经网络
  • 7.2 神经网络的局限
  • 7.3 深度学习
  • 7.4 案例研究
  • 7.4.1 工具和软件
  • 7.4.2 业务问题
  • 7.4.3 机器学习映射
  • 7.4.4 数据采样和转换
  • 7.4.5 特征分析
  • 7.4.6 模型、结果和评估
  • 7.5 小结
  • 7.6 参考文献
  • 第8章 文本挖掘和自然语言处理
  • 8.1 NLP及其子领域和任务
  • 8.1.1 文本分类
  • 8.1.2 词性标注
  • 8.1.3 文本聚类
  • 8.1.4 信息抽取和命名实体识别
  • 8.1.5 情感分析和观点挖掘
  • 8.1.6 指代消解
  • 8.1.7 词义消歧
  • 8.1.8 机器翻译
  • 8.1.9 语义推理及推断
  • 8.1.10 文本摘要
  • 8.1.11 自动问答
  • 8.2 挖掘非结构化数据的问题
  • 8.3 文本处理和转换
  • 8.3.1 文档收集与标准化
  • 8.3.2 词元化
  • 8.3.3 停止词移除
  • 8.3.4 词干提取或词形还原
  • 8.3.5 局部/全局字典或词汇表
  • 8.3.6 特征抽取/生成
  • 8.3.7 特征表示和相似度
  • 8.3.8 特征选择和降维
  • 8.4 文本挖掘主题
  • 8.4.1 文本分类
  • 8.4.2 主题建模
  • 8.4.3 文本聚类
  • 8.4.4 命名实体识别
  • 8.4.5 深度学习与NLP
  • 8.5 工具和使用
  • 8.5.1 Mallet
  • 8.5.2 用Mallet进行主题建模
  • 8.5.3 业务问题
  • 8.5.4 机器学习映射
  • 8.5.5 数据采集
  • 8.5.6 数据采样和转换
  • 8.5.7 特征分析和降维
  • 8.5.8 模型、结果和评估
  • 8.5.9 文本处理结果分析
  • 8.6 小结
  • 8.7 参考文献
  • 第9章 大数据机器学习:最终领域
  • 9.1 大数据的特点
  • 9.2 大数据机器学习
  • 9.3 批量大数据机器学习
  • 9.4 案例研究
  • 9.4.1 业务问题
  • 9.4.2 机器学习映射
  • 9.4.3 数据采集
  • 9.4.4 数据采样和转换
  • 9.4.5 使用Spark MLlib作为大数据机器学习平台
  • 9.5 实时大数据机器学习
  • 9.6 机器学习的未来
  • 9.7 小结
  • 9.8 参考文献
  • 附录A 线性代数
  • 附录B 概率论
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    5.0

    这本书是 Uday 浓厚的兴趣和全面的、夯实的理论知识的产物,同时也是他对书中所推荐的方法的实际可行性的敏锐领会。虽然已经有一些关于机器学习和数据分析的书,但 Uday 的书填补了理论和实际之间大量的空白。它提供了对于经典又高级的机器学习技术全面的、系统的分析,将重点放在技术的优点和局限性,以及技术的实际使用和实现上。

      转发
      评论

    出版方

    机械工业出版社有限公司

    机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。