展开全部

主编推荐语

这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据。

内容简介

这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据。本书后面将介绍关于Hadoop的内容。最初它能在廉价硬件上处理大量的信息,因为当时传统的关系数据库不能处理这样的信息(或能处理,但是代价过高)。大数据这个话题太大了,而Spark才是本书的重点,它是Hadoop MapReduce的另一个实现,Spark提高了磁盘上持久化保存数据的效率。通常认为使用Spark有点贵,因为它消耗更多的内存,要求硬件必须更可靠,但它也更具交互性。此外,Spark使用Scala工作(也可以使用Java和Python等),但Scala是主要的API语言。因此Spark用Scala在数据管道的表达方面有一定的协同性。

目录

  • 版权信息
  • 译者序
  • 前言
  • 第1章 探索数据分析
  • 1.1 Scala入门
  • 1.2 去除分类字段的重复值
  • 1.3 数值字段概述
  • 1.4 基本抽样、分层抽样和一致抽样
  • 1.5 使用Scala和Spark的Notebook工作
  • 1.6 相关性的基础
  • 1.7 总结
  • 第2章 数据管道和建模
  • 2.1 影响图
  • 2.2 序贯试验和风险处理
  • 2.3 探索与利用问题
  • 2.4 不知之不知
  • 2.5 数据驱动系统的基本组件
  • 2.6 优化和交互
  • 2.7 总结
  • 第3章 使用Spark和MLlib
  • 3.1 安装Spark
  • 3.2 理解Spark的架构
  • 3.3 应用
  • 3.4 机器学习库
  • 3.5 Spark的性能调整
  • 3.6 运行Hadoop的HDFS
  • 3.7 总结
  • 第4章 监督学习和无监督学习
  • 4.1 记录和监督学习
  • 4.2 无监督学习
  • 4.3 数据维度
  • 4.4 总结
  • 第5章 回归和分类
  • 5.1 回归是什么
  • 5.2 连续空间和度量
  • 5.3 线性回归
  • 5.4 logistic回归
  • 5.5 正则化
  • 5.6 多元回归
  • 5.7 异方差
  • 5.8 回归树
  • 5.9 分类的度量
  • 5.10 多分类问题
  • 5.11 感知机
  • 5.12 泛化误差和过拟合
  • 5.13 总结
  • 第6章 使用非结构化数据
  • 6.1 嵌套数据
  • 6.2 其他序列化格式
  • 6.3 Hive和Impala
  • 6.4 会话化
  • 6.5 使用特质
  • 6.6 使用模式匹配
  • 6.7 非结构化数据的其他用途
  • 6.8 概率结构
  • 6.9 投影
  • 6.10 总结
  • 第7章 使用图算法
  • 7.1 图简介
  • 7.2 SBT
  • 7.3 Scala的图项目
  • 7.4 GraphX
  • 7.5 总结
  • 第8章 Scala与R和Python的集成
  • 8.1 R的集成
  • 8.2 Python的集成
  • 8.3 总结
  • 第9章 Scala中的NLP
  • 9.1 文本分析流程
  • 9.2 Spark的MLlib库
  • 9.3 分词、标注和分块
  • 9.4 POS标记
  • 9.5 使用word2vec寻找词关系
  • 9.6 总结
  • 第10章 高级模型监控
  • 10.1 系统监控
  • 10.2 进程监控
  • 10.3 模型监控
  • 10.4 总结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。