展开全部

主编推荐语

本书系统讲解了Spark机器学习的技术、原理、组建、算法,以及构建Spark机器学习系统的方法、流程、标准和规范。

内容简介

大数据、人工智能正在改变或颠覆各行各业,包括我们的生活。大数据、人工智能方面的人才已经供不应求,但作为人工智能的核心——机器学习,因涉及的知识和技能比较多,除了需要具备一定的数学基础、相关业务知识外,还要求有比较全面的技术储备,如操作系统、数据库、开发语言、数据分析工具、大数据计算平台等,无形中提高了机器学习的门槛。如何降低机器学习的门槛,让更多有志于机器学习、人工智能的人能更方便或顺畅地使用、驾驭机器学习?很多企业也正在考虑和处理这方面的问题,本书也希望借Spark技术在这方面做一些介绍或总结。

目录

  • 版权信息
  • 前言
  • 第1章 了解机器学习
  • 1.1 机器学习的定义
  • 1.2 大数据与机器学习
  • 1.3 机器学习、人工智能及深度学习
  • 1.4 机器学习的基本任务
  • 1.5 如何选择合适算法
  • 1.6 Spark在机器学习方面的优势
  • 1.7 小结
  • 第2章 构建Spark机器学习系统
  • 2.1 机器学习系统架构
  • 2.2 启动集群
  • 2.3 加载数据
  • 2.4 探索数据
  • 2.4.1 数据统计信息
  • 2.4.2 数据质量分析
  • 2.4.3 数据特征分析
  • 2.4.4 数据的可视化
  • 2.5 数据预处理
  • 2.5.1 数据清理
  • 2.5.2 数据变换
  • 2.5.3 数据集成
  • 2.5.4 数据归约
  • 2.6 构建模型
  • 2.7 模型评估
  • 2.8 组装
  • 2.9 模型选择或调优
  • 2.9.1 交叉验证
  • 2.9.2 训练–验证切分
  • 2.10 保存模型
  • 2.11 小结
  • 第3章 ML Pipeline原理与实战
  • 3.1 Pipeline简介
  • 3.2 DataFrame
  • 3.3 Pipeline组件
  • 3.4 Pipeline原理
  • 3.5 Pipeline实例
  • 3.5.1 使用Estimator、Transformer和Param的实例
  • 3.5.2 ML使用Pipeline的实例
  • 3.6 小结
  • 第4章 特征提取、转换和选择
  • 4.1 特征提取
  • 4.1.1 词频——逆向文件频率(TF-IDF)
  • 4.1.2 Word2Vec
  • 4.1.3 计数向量器
  • 4.2 特征转换
  • 4.2.1 分词器
  • 4.2.2 移除停用词
  • 4.2.3 n-gram
  • 4.2.4 二值化
  • 4.2.5 主成分分析
  • 4.2.6 多项式展开
  • 4.2.7 离散余弦变换
  • 4.2.8 字符串——索引变换
  • 4.2.9 索引——字符串变换
  • 4.2.10 独热编码
  • 4.2.11 向量——索引变换
  • 4.2.12 交互式
  • 4.2.13 正则化
  • 4.2.14 规范化
  • 4.2.15 最大值——最小值缩放
  • 4.2.16 最大值——绝对值缩放
  • 4.2.17 离散化重组
  • 4.2.18 元素乘积
  • 4.2.19 SQL转换器
  • 4.2.20 向量汇编
  • 4.2.21 分位数离散化
  • 4.3 特征选择
  • 4.3.1 向量机
  • 4.3.2 R公式
  • 4.3.3 卡方特征选择
  • 4.4 小结
  • 第5章 模型选择和优化
  • 5.1 模型选择
  • 5.2 交叉验证
  • 5.3 训练验证拆分法
  • 5.4 自定义模型选择
  • 5.5 小结
  • 第6章 Spark MLlib基础
  • 6.1 Spark MLlib简介
  • 6.2 Spark MLlib架构
  • 6.3 数据类型
  • 6.4 基础统计
  • 6.4.1 摘要统计
  • 6.4.2 相关性
  • 6.4.3 假设检验
  • 6.4.4 随机数据生成
  • 6.5 RDD、Dataframe和Dataset
  • 6.5.1 RDD
  • 6.5.2 Dataset/DataFrame
  • 6.5.3 相互转换
  • 6.6 小结
  • 第7章 构建Spark ML推荐模型
  • 7.1 推荐模型简介
  • 7.2 数据加载
  • 7.3 数据探索
  • 7.4 训练模型
  • 7.5 组装
  • 7.6 评估模型
  • 7.7 模型优化
  • 7.8 小结
  • 第8章 构建Spark ML分类模型
  • 8.1 分类模型简介
  • 8.1.1 线性模型
  • 8.1.2 决策树模型
  • 8.1.3 朴素贝叶斯模型
  • 8.2 数据加载
  • 8.3 数据探索
  • 8.4 数据预处理
  • 8.5 组装
  • 8.6 模型优化
  • 8.7 小结
  • 第9章 构建Spark ML回归模型
  • 9.1 回归模型简介
  • 9.2 数据加载
  • 9.3 探索特征分布
  • 9.4 数据预处理
  • 9.4.1 特征选择
  • 9.4.2 特征转换
  • 9.5 组装
  • 9.6 模型优化
  • 9.7 小结
  • 第10章 构建Spark ML聚类模型
  • 10.1 K-means模型简介
  • 10.2 数据加载
  • 10.3 探索特征的相关性
  • 10.4 数据预处理
  • 10.5 组装
  • 10.6 模型优化
  • 10.7 小结
  • 第11章 PySpark决策树模型
  • 11.1 PySpark简介
  • 11.2 决策树简介
  • 11.3 数据加载
  • 11.3.1 原数据集初探
  • 11.3.2 PySpark的启动
  • 11.3.3 基本函数
  • 11.4 数据探索
  • 11.5 数据预处理
  • 11.6 创建决策树模型
  • 11.7 训练模型进行预测
  • 11.8 模型优化
  • 11.8.1 特征值的优化
  • 11.8.2 交叉验证和网格参数
  • 11.9 脚本方式运行
  • 11.9.1 在脚本中添加配置信息
  • 11.9.2 运行脚本程序
  • 11.10 小结
  • 第12章 SparkR朴素贝叶斯模型
  • 12.1 SparkR简介
  • 12.2 获取数据
  • 12.2.1 SparkDataFrame数据结构说明
  • 12.2.2 创建SparkDataFrame
  • 12.2.3 SparkDataFrame的常用操作
  • 12.3 朴素贝叶斯分类器
  • 12.3.1 数据探查
  • 12.3.2 对原始数据集进行转换
  • 12.3.3 查看不同船舱的生还率差异
  • 12.3.4 转换成SparkDataFrame格式的数据
  • 12.3.5 模型概要
  • 12.3.6 预测
  • 12.3.7 评估模型
  • 12.4 小结
  • 第13章 使用Spark Streaming构建在线学习模型
  • 13.1 Spark Streaming简介
  • 13.1.1 Spark Streaming常用术语
  • 13.1.2 Spark Streaming处理流程
  • 13.2 Dstream操作
  • 13.2.1 Dstream输入
  • 13.2.2 Dstream转换
  • 13.2.3 Dstream修改
  • 13.2.4 Dstream输出
  • 13.3 Spark Streaming应用实例
  • 13.4 Spark Streaming在线学习实例
  • 13.5 小结
  • 第14章 TensorFlowOnSpark详解
  • 14.1 TensorFlow简介
  • 14.1.1 TensorFlow的安装
  • 14.1.2 TensorFlow的发展
  • 14.1.3 TensorFlow的特点
  • 14.1.4 TensorFlow编程模型
  • 14.1.5 TensorFlow常用函数
  • 14.1.6 TensorFlow运行原理
  • 14.1.7 TensorFlow系统架构
  • 14.2 TensorFlow实现卷积神经网络
  • 14.2.1 卷积神经网络简介
  • 14.2.2 卷积神经网络的发展历程
  • 14.2.3 卷积神经网络的网络结构
  • 14.2.4 TensorFlow实现卷积神经网络
  • 14.3 TensorFlow实现循环神经网络
  • 14.3.1 循环神经网络简介
  • 14.3.2 LSTM循环神经网络简介
  • 14.3.3 LSTM循环神经网络分步说明
  • 14.3.4 TensorFlow实现循环神经网络
  • 14.4 分布式TensorFlow
  • 14.4.1 客户端、主节点和工作节点间的关系
  • 14.4.2 分布式模式
  • 14.4.3 在Pyspark集群环境运行TensorFlow
  • 14.5 TensorFlowOnSpark架构
  • 14.6 TensorFlowOnSpark安装
  • 14.7 TensorFlowOnSpark实例
  • 14.7.1 TensorFlowOnSpark单机模式实例
  • 14.7.2 TensorFlowOnSpark集群模式实例
  • 14.8 小结
  • 附录A 线性代数
  • A.1 向量与空间
  • A.1.1 向量
  • A.1.2 空间
  • A.2 矩阵和行列式
  • A.2.1 矩阵
  • A.2.2 行列式
  • A.3 特征值与特征向量
  • 附录B 概率统计
  • B.1 随机变量与概率分布
  • B.1.1 概念
  • B.1.2 表示方法
  • B.2 条件概率与贝叶斯
  • B.2.1 前言
  • B.2.2 公式推导
  • B.3 协方差与多元正态分布
  • B.3.1 协方差
  • B.3.2 多元正态分布
  • B.4 估计与检验
  • B.4.1 估计方法介绍——均值估计
  • B.4.2 检验理论:
  • 附录C Scala基础
  • C.1 Scala简介
  • C.1.1 Scala概述
  • C.1.2 Scala简介
  • C.1.3 Scala与Java、Python
  • C.1.4 安装配置
  • C.2 基础知识
  • C.2.1 常量与变量
  • C.2.2 基本类型
  • C.2.3 控制语句
  • C.3 常用集合
  • C.3.1 数组
  • C.3.2 列表
  • C.3.3 元组
  • C.3.4 集合
  • C.3.5 映射
  • C.3.6 集合的模式匹配
  • C.4 函数
  • C.4.1 函数定义
  • C.4.2 匿名函数
  • C.4.3 递归函数
  • C.4.4 有默认值参数的函数
  • C.4.5 变长参数的函数
  • C.4.6 部分应用的函数
  • C.4.7 柯里化函数
  • C.4.8 遍历集合成员
展开全部

评分及书评

评分不足
1个评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。