计算机
类型
可以朗读
语音朗读
384千字
字数
2020-07-01
发行日期
展开全部
主编推荐语
精通Spark框架与应用,生产级数据科学解决方案。
内容简介
本书是一部专门介绍Spark的著作,你能从中学习到核心Spark API的所有内容并掌握如何应用框架中的库,但本书并不局限于讲解Spark框架本身,而是致力于深入研究如何使用Spark来提供生产级的数据科学解决方案。作者们凭借丰富的顶级数据科学业界经验,为我们指出大数据实战需要注意的技巧和初学者容易陷入的各种“坑”。本书让我们了解在不同的用户场景下,如何用Spark实现数据处理全流程。本书有丰富的示例代码,通过阅读本书相信读者会获益良多,并能够应对常见的大数据分析场景。
目录
- 版权信息
- 版 权
- 版权声明
- 内容提要
- 译者序
- 译者简介
- 原书序言
- 作者简介
- 审稿人简介
- 前 言
- 资源与支持
- 第1章 数据科学生态系统
- 1.1 大数据生态系统简介
- 1.1.1 数据管理
- 1.1.2 数据管理职责
- 1.1.3 合适的工具
- 1.2 数据架构
- 1.2.1 数据采集
- 1.2.2 数据湖
- 1.2.3 数据科学平台
- 1.2.4 数据访问
- 1.3 数据处理技术
- Apache Spark的角色
- 1.4 配套工具
- 1.4.1 Apache HDFS
- 1.4.2 亚马逊S3
- 1.4.3 Apache Kafka
- 1.4.4 Apache Parquet
- 1.4.5 Apache Avro
- 1.4.6 Apache NiFi
- 1.4.7 Apache YARN
- 1.4.8 Apache Lucene
- 1.4.9 Kibana
- 1.4.10 Elasticsearch
- 1.4.11 Accumulo
- 1.5 小结
- 第2章 数据获取
- 2.1 数据管道
- 2.1.1 通用采集框架
- 2.1.2 GDELT数据集简介
- 2.2 内容登记
- 2.2.1 选择和更多选择
- 2.2.2 随流而行
- 2.2.3 元数据模型
- 2.2.4 Kibana仪表盘
- 2.3 质量保证
- 2.3.1 案例1——基本质量检查,无争用用户
- 2.3.2 案例2——进阶质量检查,无争用用户
- 2.3.3 案例3——基本质量检查,50%使用率争用用户
- 2.4 小结
- 第3章 输入格式与模式
- 3.1 结构化的生活是美好的生活
- 3.2 GDELT维度建模
- GDELT模型
- 3.3 加载数据
- 3.3.1 模式敏捷性
- 3.3.2 GKG ELT
- 3.4 Avro
- 3.4.1 Spark-Avro方法
- 3.4.2 教学方法
- 3.4.3 何时执行Avro转换
- 3.5 Apache Parquet
- 3.6 小结
- 第4章 探索性数据分析
- 4.1 问题、原则与规划
- 4.1.1 理解EDA问题
- 4.1.2 设计原则
- 4.1.3 探索的总计划
- 4.2 准备工作
- 4.2.1 基于掩码的数据剖析简介
- 4.2.2 字符类掩码简介
- 4.2.3 构建基于掩码的剖析器
- 4.3 探索GDELT
- 探索GKG V2.1
- 4.4 小结
- 第5章 利用Spark进行地理分析
- 5.1 GDELT和石油
- 5.1.1 GDELT事件
- 5.1.2 GDELT GKG
- 5.2 制订行动计划
- 5.3 GeoMesa
- 5.3.1 安装
- 5.3.2 GDELT采集
- 5.3.3 GeoMesa采集
- 5.3.4 GeoHash
- 5.3.5 GeoServer
- 5.4 计量油价
- 5.4.1 使用GeoMesa查询API
- 5.4.2 数据准备
- 5.4.3 机器学习
- 5.4.4 朴素贝叶斯
- 5.4.5 结果
- 5.4.6 分析
- 5.5 小结
- 第6章 采集基于链接的外部数据
- 6.1 构建一个大规模的新闻扫描器
- 6.1.1 访问Web内容
- 6.1.2 与Spark集成
- 6.1.3 创建可扩展的生产准备库
- 6.2 命名实体识别
- 6.2.1 Scala库
- 6.2.2 NLP攻略
- 6.2.3 构建可扩展代码
- 6.3 GIS查询
- 6.3.1 GeoNames数据集
- 6.3.2 构建高效的连接
- 6.3.3 内容除重
- 6.4 名字除重
- 6.4.1 用Scalaz进行函数式编程
- 6.4.2 简单清洗
- 6.4.3 DoubleMetaphone算法
- 6.5 新闻索引仪表板
- 6.6 小结
- 第7章 构建社区
- 7.1 构建一个人物图谱
- 7.1.1 联系链
- 7.1.2 从Elasticsearch中提取数据
- 7.2 使用Accumulo数据库
- 7.2.1 设置Accumulo
- 7.2.2 单元级安全
- 7.2.3 迭代器
- 7.2.4 从Elasticsearch到Accumulo
- 7.2.5 从Accumulo读取
- 7.2.6 AccumuloGraphxInputFormat和EdgeWritable
- 7.2.7 构建图
- 7.3 社区发现算法
- 7.3.1 Louvain算法
- 7.3.2 加权社区聚类
- 7.4 GDELT数据集
- 7.4.1 Bowie 效应
- 7.4.2 较小的社区
- 7.4.3 使用Accumulo单元级的安全性
- 7.5 小结
- 第8章 构建推荐系统
- 8.1 不同的方法
- 8.1.1 协同过滤
- 8.1.2 基于内容的过滤
- 8.1.3 自定义的方法
- 8.2 信息不完整的数据
- 8.2.1 处理字节
- 8.2.2 创建可扩展的代码
- 8.2.3 从时域到频域
- 8.3 构建歌曲分析器
- 推销数据科学和推销纸杯蛋糕是一样的
- 8.4 构建一个推荐系统
- 8.4.1 PageRank算法
- 8.4.2 构建个性化的播放列表
- 8.5 扩大“蛋糕厂”规模
- 8.5.1 构建播放列表服务
- 8.5.2 应用Spark任务服务器
- 8.5.3 用户界面
- 8.6 小结
- 第9章 新闻词典和实时标记系统
- 9.1 土耳其机器人
- 9.1.1 人类智能任务
- 9.1.2 引导分类模型
- 9.1.3 懒惰、急躁、傲慢
- 9.2 设计Spark Streaming应用
- 9.2.1 两个架构的故事
- 9.2.2 Lambda架构的价值
- 9.2.3 Kappa架构的价值
- 9.3 消费数据流
- 9.3.1 创建GDELT数据流
- 9.3.2 创建Twitter数据流
- 9.4 处理Twitter数据
- 9.4.1 提取URL和主题标签
- 9.4.2 保存流行的主题标签
- 9.4.3 扩展缩短的URL
- 9.5 获取HTML内容
- 9.6 使用Elasticsearch作为缓存层
- 9.7 分类数据
- 9.7.1 训练朴素贝叶斯模型
- 9.7.2 确保线程安全
- 9.7.3 预测GDELT数据
- 9.8 Twitter土耳其机器人
- 9.9 小结
- 第10章 故事除重和变迁
- 10.1 检测近似重复
- 10.1.1 从散列开始第一步
- 10.1.2 站在“互联网巨人”的肩膀上
- 10.1.3 检测GDELT中的近似重复
- 10.1.4 索引GDELT数据库
- 10.2 构建故事
- 10.2.1 构建词频向量
- 10.2.2 维度灾难,数据科学之痛
- 10.2.3 优化KMeans
- 10.3 故事变迁
- 10.3.1 平衡态
- 10.3.2 随时间追踪故事
- 10.3.3 构建故事的关联
- 10.4 小结
- 第11章 情感分析中的异常检测
- 11.1 在Twitter上追踪美国大选
- 11.1.1 流式获取数据
- 11.1.2 成批获取数据
- 11.2 情感分析
- 11.2.1 格式化处理Twitter数据
- 11.2.2 使用斯坦福NLP
- 11.2.3 建立管道
- 11.3 使用Timely作为时间序列数据库
- 11.3.1 存储数据
- 11.3.2 使用Grafana可视化情感
- 11.4 Twitter与戈德温(Godwin)点
- 11.4.1 学习环境
- 11.4.2 对模型进行可视化
- 11.4.3 Word2Graph和戈德温点
- 11.5 进入检测讽刺的一小步
- 11.5.1 构建特征
- 11.5.2 检测异常
- 11.6 小结
- 第12章 趋势演算
- 12.1 研究趋势
- 12.2 趋势演算算法
- 12.2.1 趋势窗口
- 12.2.2 简单趋势
- 12.2.3 用户定义聚合函数
- 12.2.4 简单趋势计算
- 12.2.5 反转规则
- 12.2.6 FHLS条状图介绍
- 12.2.7 可视化数据
- 12.3 实际应用
- 12.3.1 算法特性
- 12.3.2 潜在的用例
- 12.4 小结
- 第13章 数据保护
- 13.1 数据安全性
- 13.1.1 存在的问题
- 13.1.2 基本操作
- 13.2 认证和授权
- 13.3 访问
- 13.4 加密
- 13.4.1 数据处于静态时
- 13.4.2 数据处于传输时
- 13.4.3 混淆/匿名
- 13.4.4 遮罩
- 13.4.5 令牌化
- 13.5 数据处置
- 13.6 Kerberos认证
- 13.6.1 用例1:Apache Spark在受保护的HDFS中访问数据
- 13.6.2 用例2:扩展到自动身份验证
- 13.6.3 用例3:从Spark连接到安全数据库
- 13.7 安全生态
- 13.7.1 Apache Sentry
- 13.7.2 RecordService
- 13.8 安全责任
- 13.9 小结
- 第14章 可扩展算法
- 14.1 基本原则
- 14.2 Spark架构
- 14.2.1 Spark的历史
- 14.2.2 动态组件
- 14.3 挑战
- 14.3.1 算法复杂性
- 14.3.2 数值异常
- 14.3.3 洗牌
- 14.3.4 数据模式
- 14.4 规划你的路线
- 迭代
- 14.5 设计模式和技术
- 14.5.1 Spark API
- 14.5.2 摘要模式
- 14.5.3 扩展并解决模式
- 14.5.4 轻量级洗牌
- 14.5.5 宽表模式
- 14.5.6 广播变量模式
- 14.5.7 组合器模式
- 14.5.8 集群优化
- 14.5.9 再分配模式
- 14.5.10 加盐键模式
- 14.5.11 二次排序模式
- 14.5.12 过滤过度模式
- 14.5.13 概率算法
- 14.5.14 选择性缓存
- 14.5.15 垃圾回收
- 14.5.16 图遍历
- 14.6 小结
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。