展开全部

主编推荐语

微软资深Spark工程师从核心技术、算法、系统架构、应用场景等角度,深入讲解Spark大数据分析的各种技术和方法。

内容简介

这是一本根据应用场景讲解如何通过Spark进行大数据分析与应用构建的著作,以实战为导向。作者结合典型应用场景,抽象出通用与简化后的模型,以便于读者能举一反三,直接应用。

本书首先从技术层面讲解了Spark的机制、生态系统与开发相关的内容;然后从应用角度讲解了日志分析、推荐系统、情感分析、协同过滤、搜索引擎、社交网络分析、新闻数据分析等多个常见的大数据场景下的数据分析。

在每个场景中,首先是对场景进行抽象与概括,然后将Spark融入其中构建数据分析算法与应用,最后结合其他开源系统或工具构建更为丰富的数据分析流水线。

目录

  • 版权信息
  • 前言
  • 第1章 Spark简介
  • 1.1 初识Spark
  • 1.2 Spark生态系统BDAS
  • 1.3 Spark架构与运行逻辑
  • 1.4 弹性分布式数据集
  • 1.4.1 RDD简介
  • 1.4.2 RDD算子分类
  • 1.5 本章小结
  • 第2章 Spark开发与环境配置
  • 2.1 Spark应用开发环境配置
  • 2.1.1 使用Intellij开发Spark程序
  • 2.1.2 使用SparkShell进行交互式数据分析
  • 2.2 远程调试Spark程序
  • 2.3 Spark编译
  • 2.4 配置Spark源码阅读环境
  • 2.5 本章小结
  • 第3章 BDAS简介
  • 3.1 SQL on Spark
  • 3.1.1 为什么使用Spark SQL
  • 3.1.2 Spark SQL架构分析
  • 3.2 Spark Streaming
  • 3.2.1 Spark Streaming简介
  • 3.2.2 Spark Streaming架构
  • 3.2.3 Spark Streaming原理剖析
  • 3.3 GraphX
  • 3.3.1 GraphX简介
  • 3.3.2 GraphX的使用简介
  • 3.3.3 GraphX体系结构
  • 3.4 MLlib
  • 3.4.1 MLlib简介
  • 3.4.2 MLlib中的聚类和分类
  • 3.5 本章小结
  • 第4章 Lamda架构日志分析流水线
  • 4.1 日志分析概述
  • 4.2 日志分析指标
  • 4.3 Lamda架构
  • 4.4 构建日志分析数据流水线
  • 4.4.1 用Flume进行日志采集
  • 4.4.2 用Kafka将日志汇总
  • 4.4.3 用Spark Streaming进行实时日志分析
  • 4.4.4 Spark SQL离线日志分析
  • 4.4.5 用Flask将日志KPI可视化
  • 4.5 本章小结
  • 第5章 基于云平台和用户日志的推荐系统
  • 5.1 Azure云平台简介
  • 5.1.1 Azure网站模型
  • 5.1.2 Azure数据存储
  • 5.1.3 Azure Queue消息传递
  • 5.2 系统架构
  • 5.3 构建Node.js应用
  • 5.3.1 创建Azure Web应用
  • 5.3.2 构建本地Node.js网站
  • 5.3.3 发布应用到云平台
  • 5.4 数据收集与预处理
  • 5.4.1 通过JS收集用户行为日志
  • 5.4.2 用户实时行为回传到Azure Queue
  • 5.5 Spark Streaming实时分析用户日志
  • 5.5.1 构建Azure Queue的Spark Streaming Receiver
  • 5.5.2 Spark Streaming实时处理Azure Queue日志
  • 5.5.3 Spark Streaming数据存储于Azure Table
  • 5.6 MLlib离线训练模型
  • 5.6.1 加载训练数据
  • 5.6.2 使用rating RDD训练ALS模型
  • 5.6.3 使用ALS模型进行电影推荐
  • 5.6.4 评估模型的均方差
  • 5.7 本章小结
  • 第6章 Twitter情感分析
  • 6.1 系统架构
  • 6.2 Twitter数据收集
  • 6.2.1 设置
  • 6.2.2 Spark Streaming接收并输出Tweet
  • 6.3 数据预处理与Cassandra存储
  • 6.3.1 添加SBT依赖
  • 6.3.2 创建Cassandra Schema
  • 6.3.3 数据存储于Cassandra
  • 6.4 Spark Streaming热点Twitter分析
  • 6.5 Spark Streaming在线情感分析
  • 6.6 Spark SQL进行Twitter分析
  • 6.6.1 读取Cassandra数据
  • 6.6.2 查看JSON数据模式
  • 6.6.3 Spark SQL分析Twitter
  • 6.7 Twitter可视化
  • 6.8 本章小结
  • 第7章 热点新闻分析系统
  • 7.1 新闻数据分析
  • 7.2 系统架构
  • 7.3 爬虫抓取网络信息
  • 7.3.1 Scrapy简介
  • 7.3.2 创建基于Scrapy的新闻爬虫
  • 7.3.3 爬虫分布式化
  • 7.4 新闻文本数据预处理
  • 7.5 新闻聚类
  • 7.5.1 数据转换为向量(向量空间模型VSM)
  • 7.5.2 新闻聚类
  • 7.5.3 词向量同义词查询
  • 7.5.4 实时热点新闻分析
  • 7.6 Spark Elastic Search构建全文检索引擎
  • 7.6.1 部署Elastic Search
  • 7.6.2 用Elastic Search索引MongoDB数据
  • 7.6.3 通过Elastic Search检索数据
  • 7.7 本章小结
  • 第8章 构建分布式的协同过滤推荐系统
  • 8.1 推荐系统简介
  • 8.2 协同过滤介绍
  • 8.2.1 基于用户的协同过滤算法User-based CF
  • 8.2.2 基于项目的协同过滤算法Item-based CF
  • 8.2.3 基于模型的协同过滤推荐Model-based CF
  • 8.3 基于Spark的矩阵运算实现协同过滤算法
  • 8.3.1 Spark中的矩阵类型
  • 8.3.2 Spark中的矩阵运算
  • 8.3.3 实现User-based协同过滤的示例
  • 8.3.4 实现Item-based协同过滤的示例
  • 8.3.5 基于奇异值分解实现Model-based协同过滤的示例
  • 8.4 基于Spark的MLlib实现协同过滤算法
  • 8.4.1 MLlib的推荐算法工具
  • 8.4.2 MLlib协同过滤推荐示例
  • 8.5 案例:使用MLlib协同过滤实现电影推荐
  • 8.5.1 MovieLens数据集
  • 8.5.2 确定最佳的协同过滤模型参数
  • 8.5.3 利用最佳模型进行电影推荐
  • 8.6 本章小结
  • 第9章 基于Spark的社交网络分析
  • 9.1 社交网络介绍
  • 9.1.1 社交网络的类型
  • 9.1.2 社交网络的相关概念
  • 9.2 社交网络中社团挖掘算法
  • 9.2.1 聚类分析和K均值算法简介
  • 9.2.2 社团挖掘的衡量指标
  • 9.2.3 基于谱聚类的社团挖掘算法
  • 9.3 Spark中的K均值算法
  • 9.3.1 Spark中与K均值有关的对象和方法
  • 9.3.2 Spark下K均值算法示例
  • 9.4 案例:基于Spark的Facebook社团挖掘
  • 9.4.1 SNAP社交网络数据集介绍
  • 9.4.2 基于Spark的社团挖掘实现
  • 9.5 社交网络中的链路预测算法
  • 9.5.1 分类学习简介
  • 9.5.2 分类器的评价指标
  • 9.5.3 基于Logistic回归的链路预测算法
  • 9.6 Spark MLlib中的Logistic回归
  • 9.6.1 分类器相关对象
  • 9.6.2 模型验证对象
  • 9.6.3 基于Spark的Logistic回归示例
  • 9.7 案例:基于Spark的链路预测算法
  • 9.7.1 SNAP符号社交网络Epinions数据集
  • 9.7.2 基于Spark的链路预测算法
  • 9.8 本章小结
  • 第10章 基于Spark的大规模新闻主题分析
  • 10.1 主题模型简介
  • 10.2 主题模型LDA
  • 10.2.1 LDA模型介绍
  • 10.2.2 LDA的训练算法
  • 10.3 Spark中的LDA模型
  • 10.3.1 MLlib对LDA的支持
  • 10.3.2 Spark中LDA模型训练示例
  • 10.4 案例:Newsgroups新闻的主题分析
  • 10.4.1 Newsgroups数据集介绍
  • 10.4.2 交叉验证估计新闻的主题个数
  • 10.4.3 基于主题模型的文本聚类算法
  • 10.4.4 基于主题模型的文本分类算法
  • 10.5 本章小结
  • 第11章 构建分布式的搜索引擎
  • 11.1 搜索引擎简介
  • 11.2 搜索排序概述
  • 11.3 查询无关模型PageRank
  • 11.4 基于Spark的分布式PageRank实现
  • 11.4.1 PageRank的MapReduce实现
  • 11.4.2 Spark的分布式图模型GraphX
  • 11.4.3 基于GraphX的PageRank实现
  • 11.5 案例:GoogleWeb Graph的PageRank计算
  • 11.6 查询相关模型Ranking SVM
  • 11.7 Spark中支持向量机的实现
  • 11.7.1 Spark中的支持向量机模型
  • 11.7.2 使用Spark测试数据演示支持向量机的训练
  • 11.8 案例:基于MSLR数据集的查询排序
  • 11.8.1 Microsoft Learning to Rank数据集介绍
  • 11.8.2 基于Spark的Ranking SVM实现
  • 11.9 本章小结
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    5.0

    Spark 大数据技术还在如火如荼地发展,Spark 中国峰会的召开,各地 meetup 的火爆举行,开源软件 Spark 也因此水涨船高,很多公司已经将 Spark 大范围落地并且应用。Spark 使用者的需求已经从最初的部署安装、运行实例,到现在越来越需要通过 Spark 构建丰富的数据分析应用。写一本 Spark 实用案例类的技术书籍,是一个持续了很久的想法。

      转发
      评论

    出版方

    机械工业出版社有限公司

    机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。