科技
类型
可以朗读
语音朗读
208千字
字数
2018-01-01
发行日期
展开全部
主编推荐语
本书系统讲解了Spark机器学习的技术、原理、组建、算法,以及构建Spark机器学习系统的方法、流程、标准和规范。
内容简介
大数据、人工智能正在改变或颠覆各行各业,包括我们的生活。大数据、人工智能方面的人才已经供不应求,但作为人工智能的核心——机器学习,因涉及的知识和技能比较多,除了需要具备一定的数学基础、相关业务知识外,还要求有比较全面的技术储备,如操作系统、数据库、开发语言、数据分析工具、大数据计算平台等,无形中提高了机器学习的门槛。如何降低机器学习的门槛,让更多有志于机器学习、人工智能的人能更方便或顺畅地使用、驾驭机器学习?很多企业也正在考虑和处理这方面的问题,本书也希望借Spark技术在这方面做一些介绍或总结。
目录
- 版权信息
- 前言
- 第1章 了解机器学习
- 1.1 机器学习的定义
- 1.2 大数据与机器学习
- 1.3 机器学习、人工智能及深度学习
- 1.4 机器学习的基本任务
- 1.5 如何选择合适算法
- 1.6 Spark在机器学习方面的优势
- 1.7 小结
- 第2章 构建Spark机器学习系统
- 2.1 机器学习系统架构
- 2.2 启动集群
- 2.3 加载数据
- 2.4 探索数据
- 2.4.1 数据统计信息
- 2.4.2 数据质量分析
- 2.4.3 数据特征分析
- 2.4.4 数据的可视化
- 2.5 数据预处理
- 2.5.1 数据清理
- 2.5.2 数据变换
- 2.5.3 数据集成
- 2.5.4 数据归约
- 2.6 构建模型
- 2.7 模型评估
- 2.8 组装
- 2.9 模型选择或调优
- 2.9.1 交叉验证
- 2.9.2 训练–验证切分
- 2.10 保存模型
- 2.11 小结
- 第3章 ML Pipeline原理与实战
- 3.1 Pipeline简介
- 3.2 DataFrame
- 3.3 Pipeline组件
- 3.4 Pipeline原理
- 3.5 Pipeline实例
- 3.5.1 使用Estimator、Transformer和Param的实例
- 3.5.2 ML使用Pipeline的实例
- 3.6 小结
- 第4章 特征提取、转换和选择
- 4.1 特征提取
- 4.1.1 词频——逆向文件频率(TF-IDF)
- 4.1.2 Word2Vec
- 4.1.3 计数向量器
- 4.2 特征转换
- 4.2.1 分词器
- 4.2.2 移除停用词
- 4.2.3 n-gram
- 4.2.4 二值化
- 4.2.5 主成分分析
- 4.2.6 多项式展开
- 4.2.7 离散余弦变换
- 4.2.8 字符串——索引变换
- 4.2.9 索引——字符串变换
- 4.2.10 独热编码
- 4.2.11 向量——索引变换
- 4.2.12 交互式
- 4.2.13 正则化
- 4.2.14 规范化
- 4.2.15 最大值——最小值缩放
- 4.2.16 最大值——绝对值缩放
- 4.2.17 离散化重组
- 4.2.18 元素乘积
- 4.2.19 SQL转换器
- 4.2.20 向量汇编
- 4.2.21 分位数离散化
- 4.3 特征选择
- 4.3.1 向量机
- 4.3.2 R公式
- 4.3.3 卡方特征选择
- 4.4 小结
- 第5章 模型选择和优化
- 5.1 模型选择
- 5.2 交叉验证
- 5.3 训练验证拆分法
- 5.4 自定义模型选择
- 5.5 小结
- 第6章 Spark MLlib基础
- 6.1 Spark MLlib简介
- 6.2 Spark MLlib架构
- 6.3 数据类型
- 6.4 基础统计
- 6.4.1 摘要统计
- 6.4.2 相关性
- 6.4.3 假设检验
- 6.4.4 随机数据生成
- 6.5 RDD、Dataframe和Dataset
- 6.5.1 RDD
- 6.5.2 Dataset/DataFrame
- 6.5.3 相互转换
- 6.6 小结
- 第7章 构建Spark ML推荐模型
- 7.1 推荐模型简介
- 7.2 数据加载
- 7.3 数据探索
- 7.4 训练模型
- 7.5 组装
- 7.6 评估模型
- 7.7 模型优化
- 7.8 小结
- 第8章 构建Spark ML分类模型
- 8.1 分类模型简介
- 8.1.1 线性模型
- 8.1.2 决策树模型
- 8.1.3 朴素贝叶斯模型
- 8.2 数据加载
- 8.3 数据探索
- 8.4 数据预处理
- 8.5 组装
- 8.6 模型优化
- 8.7 小结
- 第9章 构建Spark ML回归模型
- 9.1 回归模型简介
- 9.2 数据加载
- 9.3 探索特征分布
- 9.4 数据预处理
- 9.4.1 特征选择
- 9.4.2 特征转换
- 9.5 组装
- 9.6 模型优化
- 9.7 小结
- 第10章 构建Spark ML聚类模型
- 10.1 K-means模型简介
- 10.2 数据加载
- 10.3 探索特征的相关性
- 10.4 数据预处理
- 10.5 组装
- 10.6 模型优化
- 10.7 小结
- 第11章 PySpark决策树模型
- 11.1 PySpark简介
- 11.2 决策树简介
- 11.3 数据加载
- 11.3.1 原数据集初探
- 11.3.2 PySpark的启动
- 11.3.3 基本函数
- 11.4 数据探索
- 11.5 数据预处理
- 11.6 创建决策树模型
- 11.7 训练模型进行预测
- 11.8 模型优化
- 11.8.1 特征值的优化
- 11.8.2 交叉验证和网格参数
- 11.9 脚本方式运行
- 11.9.1 在脚本中添加配置信息
- 11.9.2 运行脚本程序
- 11.10 小结
- 第12章 SparkR朴素贝叶斯模型
- 12.1 SparkR简介
- 12.2 获取数据
- 12.2.1 SparkDataFrame数据结构说明
- 12.2.2 创建SparkDataFrame
- 12.2.3 SparkDataFrame的常用操作
- 12.3 朴素贝叶斯分类器
- 12.3.1 数据探查
- 12.3.2 对原始数据集进行转换
- 12.3.3 查看不同船舱的生还率差异
- 12.3.4 转换成SparkDataFrame格式的数据
- 12.3.5 模型概要
- 12.3.6 预测
- 12.3.7 评估模型
- 12.4 小结
- 第13章 使用Spark Streaming构建在线学习模型
- 13.1 Spark Streaming简介
- 13.1.1 Spark Streaming常用术语
- 13.1.2 Spark Streaming处理流程
- 13.2 Dstream操作
- 13.2.1 Dstream输入
- 13.2.2 Dstream转换
- 13.2.3 Dstream修改
- 13.2.4 Dstream输出
- 13.3 Spark Streaming应用实例
- 13.4 Spark Streaming在线学习实例
- 13.5 小结
- 第14章 TensorFlowOnSpark详解
- 14.1 TensorFlow简介
- 14.1.1 TensorFlow的安装
- 14.1.2 TensorFlow的发展
- 14.1.3 TensorFlow的特点
- 14.1.4 TensorFlow编程模型
- 14.1.5 TensorFlow常用函数
- 14.1.6 TensorFlow运行原理
- 14.1.7 TensorFlow系统架构
- 14.2 TensorFlow实现卷积神经网络
- 14.2.1 卷积神经网络简介
- 14.2.2 卷积神经网络的发展历程
- 14.2.3 卷积神经网络的网络结构
- 14.2.4 TensorFlow实现卷积神经网络
- 14.3 TensorFlow实现循环神经网络
- 14.3.1 循环神经网络简介
- 14.3.2 LSTM循环神经网络简介
- 14.3.3 LSTM循环神经网络分步说明
- 14.3.4 TensorFlow实现循环神经网络
- 14.4 分布式TensorFlow
- 14.4.1 客户端、主节点和工作节点间的关系
- 14.4.2 分布式模式
- 14.4.3 在Pyspark集群环境运行TensorFlow
- 14.5 TensorFlowOnSpark架构
- 14.6 TensorFlowOnSpark安装
- 14.7 TensorFlowOnSpark实例
- 14.7.1 TensorFlowOnSpark单机模式实例
- 14.7.2 TensorFlowOnSpark集群模式实例
- 14.8 小结
- 附录A 线性代数
- A.1 向量与空间
- A.1.1 向量
- A.1.2 空间
- A.2 矩阵和行列式
- A.2.1 矩阵
- A.2.2 行列式
- A.3 特征值与特征向量
- 附录B 概率统计
- B.1 随机变量与概率分布
- B.1.1 概念
- B.1.2 表示方法
- B.2 条件概率与贝叶斯
- B.2.1 前言
- B.2.2 公式推导
- B.3 协方差与多元正态分布
- B.3.1 协方差
- B.3.2 多元正态分布
- B.4 估计与检验
- B.4.1 估计方法介绍——均值估计
- B.4.2 检验理论:
- 附录C Scala基础
- C.1 Scala简介
- C.1.1 Scala概述
- C.1.2 Scala简介
- C.1.3 Scala与Java、Python
- C.1.4 安装配置
- C.2 基础知识
- C.2.1 常量与变量
- C.2.2 基本类型
- C.2.3 控制语句
- C.3 常用集合
- C.3.1 数组
- C.3.2 列表
- C.3.3 元组
- C.3.4 集合
- C.3.5 映射
- C.3.6 集合的模式匹配
- C.4 函数
- C.4.1 函数定义
- C.4.2 匿名函数
- C.4.3 递归函数
- C.4.4 有默认值参数的函数
- C.4.5 变长参数的函数
- C.4.6 部分应用的函数
- C.4.7 柯里化函数
- C.4.8 遍历集合成员
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。