展开全部

主编推荐语

精通Spark框架与应用,生产级数据科学解决方案。

内容简介

本书是一部专门介绍Spark的著作,你能从中学习到核心Spark API的所有内容并掌握如何应用框架中的库,但本书并不局限于讲解Spark框架本身,而是致力于深入研究如何使用Spark来提供生产级的数据科学解决方案。作者们凭借丰富的顶级数据科学业界经验,为我们指出大数据实战需要注意的技巧和初学者容易陷入的各种“坑”。本书让我们了解在不同的用户场景下,如何用Spark实现数据处理全流程。本书有丰富的示例代码,通过阅读本书相信读者会获益良多,并能够应对常见的大数据分析场景。

目录

  • 版权信息
  • 版 权
  • 版权声明
  • 内容提要
  • 译者序
  • 译者简介
  • 原书序言
  • 作者简介
  • 审稿人简介
  • 前 言
  • 资源与支持
  • 第1章 数据科学生态系统
  • 1.1 大数据生态系统简介
  • 1.1.1 数据管理
  • 1.1.2 数据管理职责
  • 1.1.3 合适的工具
  • 1.2 数据架构
  • 1.2.1 数据采集
  • 1.2.2 数据湖
  • 1.2.3 数据科学平台
  • 1.2.4 数据访问
  • 1.3 数据处理技术
  • Apache Spark的角色
  • 1.4 配套工具
  • 1.4.1 Apache HDFS
  • 1.4.2 亚马逊S3
  • 1.4.3 Apache Kafka
  • 1.4.4 Apache Parquet
  • 1.4.5 Apache Avro
  • 1.4.6 Apache NiFi
  • 1.4.7 Apache YARN
  • 1.4.8 Apache Lucene
  • 1.4.9 Kibana
  • 1.4.10 Elasticsearch
  • 1.4.11 Accumulo
  • 1.5 小结
  • 第2章 数据获取
  • 2.1 数据管道
  • 2.1.1 通用采集框架
  • 2.1.2 GDELT数据集简介
  • 2.2 内容登记
  • 2.2.1 选择和更多选择
  • 2.2.2 随流而行
  • 2.2.3 元数据模型
  • 2.2.4 Kibana仪表盘
  • 2.3 质量保证
  • 2.3.1 案例1——基本质量检查,无争用用户
  • 2.3.2 案例2——进阶质量检查,无争用用户
  • 2.3.3 案例3——基本质量检查,50%使用率争用用户
  • 2.4 小结
  • 第3章 输入格式与模式
  • 3.1 结构化的生活是美好的生活
  • 3.2 GDELT维度建模
  • GDELT模型
  • 3.3 加载数据
  • 3.3.1 模式敏捷性
  • 3.3.2 GKG ELT
  • 3.4 Avro
  • 3.4.1 Spark-Avro方法
  • 3.4.2 教学方法
  • 3.4.3 何时执行Avro转换
  • 3.5 Apache Parquet
  • 3.6 小结
  • 第4章 探索性数据分析
  • 4.1 问题、原则与规划
  • 4.1.1 理解EDA问题
  • 4.1.2 设计原则
  • 4.1.3 探索的总计划
  • 4.2 准备工作
  • 4.2.1 基于掩码的数据剖析简介
  • 4.2.2 字符类掩码简介
  • 4.2.3 构建基于掩码的剖析器
  • 4.3 探索GDELT
  • 探索GKG V2.1
  • 4.4 小结
  • 第5章 利用Spark进行地理分析
  • 5.1 GDELT和石油
  • 5.1.1 GDELT事件
  • 5.1.2 GDELT GKG
  • 5.2 制订行动计划
  • 5.3 GeoMesa
  • 5.3.1 安装
  • 5.3.2 GDELT采集
  • 5.3.3 GeoMesa采集
  • 5.3.4 GeoHash
  • 5.3.5 GeoServer
  • 5.4 计量油价
  • 5.4.1 使用GeoMesa查询API
  • 5.4.2 数据准备
  • 5.4.3 机器学习
  • 5.4.4 朴素贝叶斯
  • 5.4.5 结果
  • 5.4.6 分析
  • 5.5 小结
  • 第6章 采集基于链接的外部数据
  • 6.1 构建一个大规模的新闻扫描器
  • 6.1.1 访问Web内容
  • 6.1.2 与Spark集成
  • 6.1.3 创建可扩展的生产准备库
  • 6.2 命名实体识别
  • 6.2.1 Scala库
  • 6.2.2 NLP攻略
  • 6.2.3 构建可扩展代码
  • 6.3 GIS查询
  • 6.3.1 GeoNames数据集
  • 6.3.2 构建高效的连接
  • 6.3.3 内容除重
  • 6.4 名字除重
  • 6.4.1 用Scalaz进行函数式编程
  • 6.4.2 简单清洗
  • 6.4.3 DoubleMetaphone算法
  • 6.5 新闻索引仪表板
  • 6.6 小结
  • 第7章 构建社区
  • 7.1 构建一个人物图谱
  • 7.1.1 联系链
  • 7.1.2 从Elasticsearch中提取数据
  • 7.2 使用Accumulo数据库
  • 7.2.1 设置Accumulo
  • 7.2.2 单元级安全
  • 7.2.3 迭代器
  • 7.2.4 从Elasticsearch到Accumulo
  • 7.2.5 从Accumulo读取
  • 7.2.6 AccumuloGraphxInputFormat和EdgeWritable
  • 7.2.7 构建图
  • 7.3 社区发现算法
  • 7.3.1 Louvain算法
  • 7.3.2 加权社区聚类
  • 7.4 GDELT数据集
  • 7.4.1 Bowie 效应
  • 7.4.2 较小的社区
  • 7.4.3 使用Accumulo单元级的安全性
  • 7.5 小结
  • 第8章 构建推荐系统
  • 8.1 不同的方法
  • 8.1.1 协同过滤
  • 8.1.2 基于内容的过滤
  • 8.1.3 自定义的方法
  • 8.2 信息不完整的数据
  • 8.2.1 处理字节
  • 8.2.2 创建可扩展的代码
  • 8.2.3 从时域到频域
  • 8.3 构建歌曲分析器
  • 推销数据科学和推销纸杯蛋糕是一样的
  • 8.4 构建一个推荐系统
  • 8.4.1 PageRank算法
  • 8.4.2 构建个性化的播放列表
  • 8.5 扩大“蛋糕厂”规模
  • 8.5.1 构建播放列表服务
  • 8.5.2 应用Spark任务服务器
  • 8.5.3 用户界面
  • 8.6 小结
  • 第9章 新闻词典和实时标记系统
  • 9.1 土耳其机器人
  • 9.1.1 人类智能任务
  • 9.1.2 引导分类模型
  • 9.1.3 懒惰、急躁、傲慢
  • 9.2 设计Spark Streaming应用
  • 9.2.1 两个架构的故事
  • 9.2.2 Lambda架构的价值
  • 9.2.3 Kappa架构的价值
  • 9.3 消费数据流
  • 9.3.1 创建GDELT数据流
  • 9.3.2 创建Twitter数据流
  • 9.4 处理Twitter数据
  • 9.4.1 提取URL和主题标签
  • 9.4.2 保存流行的主题标签
  • 9.4.3 扩展缩短的URL
  • 9.5 获取HTML内容
  • 9.6 使用Elasticsearch作为缓存层
  • 9.7 分类数据
  • 9.7.1 训练朴素贝叶斯模型
  • 9.7.2 确保线程安全
  • 9.7.3 预测GDELT数据
  • 9.8 Twitter土耳其机器人
  • 9.9 小结
  • 第10章 故事除重和变迁
  • 10.1 检测近似重复
  • 10.1.1 从散列开始第一步
  • 10.1.2 站在“互联网巨人”的肩膀上
  • 10.1.3 检测GDELT中的近似重复
  • 10.1.4 索引GDELT数据库
  • 10.2 构建故事
  • 10.2.1 构建词频向量
  • 10.2.2 维度灾难,数据科学之痛
  • 10.2.3 优化KMeans
  • 10.3 故事变迁
  • 10.3.1 平衡态
  • 10.3.2 随时间追踪故事
  • 10.3.3 构建故事的关联
  • 10.4 小结
  • 第11章 情感分析中的异常检测
  • 11.1 在Twitter上追踪美国大选
  • 11.1.1 流式获取数据
  • 11.1.2 成批获取数据
  • 11.2 情感分析
  • 11.2.1 格式化处理Twitter数据
  • 11.2.2 使用斯坦福NLP
  • 11.2.3 建立管道
  • 11.3 使用Timely作为时间序列数据库
  • 11.3.1 存储数据
  • 11.3.2 使用Grafana可视化情感
  • 11.4 Twitter与戈德温(Godwin)点
  • 11.4.1 学习环境
  • 11.4.2 对模型进行可视化
  • 11.4.3 Word2Graph和戈德温点
  • 11.5 进入检测讽刺的一小步
  • 11.5.1 构建特征
  • 11.5.2 检测异常
  • 11.6 小结
  • 第12章 趋势演算
  • 12.1 研究趋势
  • 12.2 趋势演算算法
  • 12.2.1 趋势窗口
  • 12.2.2 简单趋势
  • 12.2.3 用户定义聚合函数
  • 12.2.4 简单趋势计算
  • 12.2.5 反转规则
  • 12.2.6 FHLS条状图介绍
  • 12.2.7 可视化数据
  • 12.3 实际应用
  • 12.3.1 算法特性
  • 12.3.2 潜在的用例
  • 12.4 小结
  • 第13章 数据保护
  • 13.1 数据安全性
  • 13.1.1 存在的问题
  • 13.1.2 基本操作
  • 13.2 认证和授权
  • 13.3 访问
  • 13.4 加密
  • 13.4.1 数据处于静态时
  • 13.4.2 数据处于传输时
  • 13.4.3 混淆/匿名
  • 13.4.4 遮罩
  • 13.4.5 令牌化
  • 13.5 数据处置
  • 13.6 Kerberos认证
  • 13.6.1 用例1:Apache Spark在受保护的HDFS中访问数据
  • 13.6.2 用例2:扩展到自动身份验证
  • 13.6.3 用例3:从Spark连接到安全数据库
  • 13.7 安全生态
  • 13.7.1 Apache Sentry
  • 13.7.2 RecordService
  • 13.8 安全责任
  • 13.9 小结
  • 第14章 可扩展算法
  • 14.1 基本原则
  • 14.2 Spark架构
  • 14.2.1 Spark的历史
  • 14.2.2 动态组件
  • 14.3 挑战
  • 14.3.1 算法复杂性
  • 14.3.2 数值异常
  • 14.3.3 洗牌
  • 14.3.4 数据模式
  • 14.4 规划你的路线
  • 迭代
  • 14.5 设计模式和技术
  • 14.5.1 Spark API
  • 14.5.2 摘要模式
  • 14.5.3 扩展并解决模式
  • 14.5.4 轻量级洗牌
  • 14.5.5 宽表模式
  • 14.5.6 广播变量模式
  • 14.5.7 组合器模式
  • 14.5.8 集群优化
  • 14.5.9 再分配模式
  • 14.5.10 加盐键模式
  • 14.5.11 二次排序模式
  • 14.5.12 过滤过度模式
  • 14.5.13 概率算法
  • 14.5.14 选择性缓存
  • 14.5.15 垃圾回收
  • 14.5.16 图遍历
  • 14.6 小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。