展开全部

主编推荐语

阿里ODPS平台权威指南:入门教程、实战分析与大数据思想。

内容简介

本书是阿里ODPS平台的权威指南。本书基于很多范例解析,可以引导用户从零开始轻松入门ODPS。主要内容包括:ODPS入门、整体架构、数据通道、MapReduce编程、SQL查询分析、安全、以及基于真实数据的各种场景分析实战。本书不但是ODPS平台的入门和精通,而且提供了大数据处理分析的一些思想。

目录

  • 封面
  • 目录
  • 扉页
  • 版权
  • 推荐序一
  • 推荐序二
  • 推荐序三
  • 作者简介
  • 前言
  • 第1章 ODPS概述
  • 1.1 引言
  • 1.2 初识ODPS
  • 1.2.1 背景和挑战
  • 1.2.2 为什么做ODPS
  • 1.2.3 ODPS是什么
  • 1.2.4 ODPS做什么
  • 1.3 基本概念
  • 1.3.1 账号(Account)
  • 1.3.2 项目空间(Project)
  • 1.3.3 表(Table)
  • 1.3.4 分区(Partition)
  • 1.3.5 任务(Task)、作业(Job)和作业实例(Instance)
  • 1.3.6 资源(Resource)
  • 1.4 应用开发模式
  • 1.4.1 RESTful API
  • 1.4.2 ODPS SDK
  • 1.4.3 ODPS CLT
  • 1.4.4 管理控制台
  • 1.4.5 IDE
  • 1.5 一些典型场景
  • 1.5.1 阿里金融数据仓库
  • 1.5.2 CNZZ数据仓库
  • 1.5.3 支付宝账号影响力圈
  • 1.5.4 阿里金融水文衍生算法
  • 1.5.5 阿里妈妈广告CTR预估
  • 1.6 现状和前景
  • 1.7 小结
  • 第2章 ODPS入门
  • 2.1 准备工作
  • 2.1.1 创建云账号
  • 2.1.2 开通 ODPS 服务
  • 2.2 使用管理控制台
  • 2.3 配置ODPS客户端
  • 2.3.1 下载和配置CLT
  • 2.3.2 准备dual表
  • 2.3.3 CLT运行模式
  • 2.3.4 下载和配置dship
  • 2.3.5 通过dship上传下载数据
  • 2.4 网站日志分析实例
  • 2.4.1 场景和数据说明
  • 2.4.2 需求分析
  • 2.4.3 数据准备
  • 2.4.4 创建表并添加分区
  • 2.4.5 数据解析和导入
  • 2.4.6 数据加工
  • 2.4.7 数据分析
  • 2.4.8 自动化运行
  • 2.4.9 应用数据集市
  • 2.4.10 结果导出
  • 2.4.11 结果展现
  • 2.4.12 删除数据
  • 2.4.13 解决方案:采云间
  • 2.5 获取帮助
  • 2.6 小结
  • 第3章 收集海量数据
  • 3.1 dship工具
  • 3.2 收集Web日志
  • 3.2.1 场景和需求说明
  • 3.2.2 问题分析和设计
  • 3.2.3 实现说明
  • 3.2.4 进一步探讨
  • 3.2.5 为什么这么难
  • 3.2.6 解决方案:SLS
  • 3.3 MySQL数据同步到ODPS
  • 3.3.1 场景和需求说明
  • 3.3.2 问题分析和实现
  • 3.3.3 进一步探讨
  • 3.4 下载结果表
  • 3.5 小结
  • 第4章 使用SQL处理海量数据
  • 4.1 ODPS SQL是什么
  • 4.2 入门示例
  • 4.2.1 场景说明
  • 4.2.2 简单的DDL操作
  • 4.2.3 生成数据
  • 4.2.4 单表查询
  • 4.2.5 多表连接JOIN
  • 4.2.6 高级查询
  • 4.2.7 多表关联UNION ALL
  • 4.2.8 多路输出(MULTI-INSERT)
  • 4.3 网站日志分析
  • 4.3.1 准备数据和表
  • 4.3.2 维度表
  • 4.3.3 访问路径分析
  • 4.3.4 TopK查询
  • 4.3.5 IP黑名单
  • 4.4 天猫品牌预测
  • 4.4.1 主题说明和前期准备
  • 4.4.2 理解数据
  • 4.4.3 两个简单的实践
  • 4.4.4 问题分析和算法设计
  • 4.4.5 生成特征
  • 4.4.6 抽取正负样本
  • 4.4.7 生成模型
  • 4.4.8 验证模型
  • 4.4.9 预测结果
  • 4.4.10 进一步探讨
  • 4.5 小结
  • 第5章 SQL进阶
  • 5.1 UDF是什么
  • 5.2 入门示例
  • 5.3 实际应用案例
  • 5.3.1 URL解码
  • 5.3.2 简单的LBS应用
  • 5.3.3 网站访问日志UserAgent解析
  • 5.4 SQL实现原理
  • 5.4.1 词法分析
  • 5.4.2 语法分析
  • 5.4.3 逻辑分析
  • 5.4.4 物理分析
  • 5.5 SQL调优
  • 5.5.1 数据倾斜
  • 5.5.2 一些优化建议
  • 5.5.3 一些注意事项
  • 5.6 小结
  • 第6章 通过Tunnel迁移数据
  • 6.1 ODPS Tunnel是什么
  • 6.2 入门示例
  • 6.2.1 下载和配置
  • 6.2.2 准备数据
  • 6.2.3 上传数据
  • 6.2.4 下载数据
  • 6.3 Tunnel原理
  • 6.3.1 数据如何传输
  • 6.3.2 客户端和服务端如何交互
  • 6.3.3 如何实现高并发
  • 6.4 从Hadoop迁移到ODPS
  • 6.4.1 问题分析
  • 6.4.2 客户端实现和分析
  • 6.4.3 Mapper实现和分析
  • 6.4.4 编译和运行
  • 6.4.5 进一步探讨
  • 6.5 一些注意点
  • 6.6 小结
  • 第7章 使用MapReduce处理数据
  • 7.1 MapReduce编程模型
  • 7.2 MapReduce应用场景
  • 7.3 初识ODPS MapReduce
  • 7.4 入门示例
  • 7.4.1 准备工作
  • 7.4.2 问题分析
  • 7.4.3 代码实现和分析
  • 7.4.4 运行和输出分析
  • 7.4.5 扩展:使用Combiner?
  • 7.5 TopK查询
  • 7.5.1 场景和数据说明
  • 7.5.2 问题分析
  • 7.5.3 具体实现分析
  • 7.5.4 运行和结果输出
  • 7.5.5 扩展:忽略Stop Words
  • 7.5.6 扩展:数据和任务统计
  • 7.5.7 扩展:MR2模型
  • 7.6 SQL和MapReduce,用哪个?
  • 7.7 小结
  • 第8章 MapReduce进阶
  • 8.1 再谈Shuffle & Sort
  • 8.2 好友推荐
  • 8.2.1 场景和数据说明
  • 8.2.2 问题定义和分析
  • 8.2.3 代码实现
  • 8.3 LBS应用探讨:周边定位
  • 8.3.1 场景和数据说明
  • 8.3.2 问题定义和分析
  • 8.3.3 代码实现和分析
  • 8.3.4 运行和测试
  • 8.4 MapReduce调试
  • 8.4.1 带bug的代码
  • 8.4.2 通过本地模式调试
  • 8.4.3 通过Counter调试
  • 8.4.4 通过log调试
  • 8.5 一些注意事项
  • 8.6 小结
  • 第9章 机器学习算法
  • 9.1 初识ODPS算法
  • 9.2 入门示例
  • 9.2.1 通过CLT统计分析
  • 9.2.2 通过XLab统计分析
  • 9.3 几个经典的算法
  • 9.3.1 逻辑回归(Logistic Progression)
  • 9.3.2 随机森林(Random Forest)
  • 9.4 天猫品牌预测
  • 9.4.1 逻辑回归
  • 9.4.2 随机森林
  • 9.4.3 脚本实现和自动化
  • 9.4.4 进一步探讨
  • 9.5 小结
  • 第10章 使用SDK访问ODPS服务
  • 10.1 主要的Package和接口
  • 10.1.1 主要的Package
  • 10.1.2 核心接口
  • 10.2 入门示例
  • 10.3 基于Eclipse插件开发
  • 10.4 小结
  • 第11章 ODPS权限、资源和数据管理
  • 11.1 权限管理
  • 11.1.1 账号授权
  • 11.1.2 角色(Role)授权
  • 11.1.3 ACL授权特点
  • 11.1.4 简单的Policy授权
  • 11.1.5 Role Policy
  • 11.1.6 ACL授权和Policy授权小结
  • 11.2 资源管理
  • 11.2.1 Project内的资源管理
  • 11.2.2 跨Project的资源共享
  • 11.3 数据管理
  • 11.3.1 表生命周期
  • 11.3.2 数据归并(Merge)
  • 11.3.3 跨Project数据同步
  • 11.3.4 跨Project数据保护(Project Protection)
  • 11.4 小结
  • 第12章 深入了解ODPS
  • 12.1 体系架构
  • 12.1.1 客户端
  • 12.1.2 接入层
  • 12.1.3 逻辑层
  • 12.1.4 存储/计算层
  • 12.2 执行流程
  • 12.2.1 提交作业
  • 12.2.2 运行作业
  • 12.2.3 查询作业状态
  • 12.2.4 执行逻辑图
  • 12.3 底层数据存储
  • 12.3.1 CFILE是什么
  • 12.3.2 CFILE逻辑结构
  • 12.4 内聚式框架
  • 12.4.1 元数据
  • 12.4.2 运维管理
  • 12.4.3 多控制集群和多计算集群
  • 12.5 跨集群复制
  • 12.5.1 数据迁移
  • 12.5.2 跨集群同步
  • 12.6 小结
  • 第13章 探索ODPS之美
  • 13.1 R语言数据探索
  • 13.1.1 安装和配置
  • 13.1.2 一些基本操作
  • 13.1.3 分析建模
  • 13.2 实时流计算
  • 13.3 图计算模型
  • 13.4 准实时SQL
  • 13.5 机器学习平台
  • 附录 ODPS消息认证机制
  • 后记
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。