展开全部

主编推荐语

三位金融领域大数据专家实战经验总结!

内容简介

本书从企业实践出发,内容覆盖数据、平台、分析和应用等企业内数据流转的主要环节。布局上,按照数据与平台篇、分析篇和应用篇分别撰写。

数据与平台篇(第1~3章),立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的分布和处理逻辑,以便快速为分析准备素材。

分析篇(第4~11章),选取企业实际案例,介绍常用的数据挖掘与机器学习算法,以业务场景为导向展示数据分析过程和技巧。

应用篇(第12~15章),选取当前主流的四个应用场景,介绍如何实现数据驱动,让数据“自动”流转于各个环节。

目录

  • 版权信息
  • 前言
  • 第一部分 数据与平台篇
  • 第1章 数据与数据平台
  • 1.1 数据的基本形态
  • 1.1.1 数据环境与数据形态
  • 1.1.2 生产数据
  • 1.1.3 原始数据
  • 1.1.4 分析数据
  • 1.2 数据平台
  • 1.2.1 数据仓库平台
  • 1.2.2 大数据平台
  • 1.2.3 MPP数据库
  • 1.2.4 NoSQL数据库
  • 1.3 应用系统
  • 1.4 本章小结
  • 第2章 数据体系
  • 2.1 数据闭环
  • 2.2 数据缓冲区
  • 2.2.1 系统解耦
  • 2.2.2 批量导出
  • 2.2.3 FTP传输
  • 2.2.4 批量导入
  • 2.3 ETL
  • 2.3.1 ETL工具
  • 2.3.2 ETL作业
  • 2.4 作业调度
  • 2.5 监控和预警
  • 2.5.1 使用监控工具进行监控
  • 2.5.2 使用BI工具进行监控
  • 2.6 本章小结
  • 第3章 实战:打造数据闭环
  • 3.1 数据缓冲区的基本规则
  • 3.1.1 文件存储规则
  • 3.1.2 文件命名规则
  • 3.1.3 文件清理规则
  • 3.2 自动加载的流程
  • 3.2.1 扫描文件
  • 3.2.2 下载文件
  • 3.2.3 解压文件
  • 3.2.4 加载文件
  • 3.3 自动加载程序的数据库设计
  • 3.3.1 数据文件信息表
  • 3.3.2 数据文件状态表
  • 3.3.3 加载配置信息表
  • 3.3.4 数据缓冲区信息表
  • 3.3.5 目标服务器表
  • 3.4 自动加载程序的多线程实现
  • 3.4.1 ScanFiles
  • 3.4.2 DownLoadAndUnZip
  • 3.4.3 LoadToHive
  • 3.4.4 LoadToOracle
  • 3.4.5 自动加载程序的部署架构
  • 3.4.6 程序的维护和优化
  • 3.5 本章小结
  • 第二部分 分析篇
  • 第4章 数据预处理
  • 4.1 数据表的预处理
  • 4.2 变量的预处理
  • 4.2.1 缺失值的处理
  • 4.2.2 极值的处理
  • 4.3 变量的设计
  • 4.3.1 暴力衍生
  • 4.3.2 交叉升维
  • 4.4 变量筛选
  • 4.4.1 筛选显著变量
  • 4.4.2 剔除共线性
  • 4.5 本章小结
  • 第5章 聚类,简单易用的客户细分方法
  • 5.1 从客户细分说起
  • 5.1.1 为什么要做客户细分
  • 5.1.2 怎么做客户细分
  • 5.1.3 聚类分析,无监督的客户细分方法
  • 5.2 谱系聚类
  • 5.2.1 基本步骤
  • 5.2.2 案例:公司客户差异化服务
  • 5.2.3 谱系聚类方法的题外话
  • 5.3 K-means算法
  • 5.3.1 基本步骤
  • 5.3.2 案例:电商卖家细分
  • 5.3.3 K-means算法的题外话
  • 5.4 本章小结
  • 第6章 关联规则挖掘,发现产品加载和交叉销售机会
  • 6.1 销售的真谛:让客户买得更多
  • 6.1.1 案例:电商的生意经
  • 6.1.2 案例:富国银行的“商店”经营模式
  • 6.1.3 案例总结
  • 6.2 交叉销售
  • 6.2.1 为什么要做交叉销售
  • 6.2.2 怎么做交叉销售
  • 6.3 关联规则挖掘,发现交叉销售机会
  • 6.3.1 Apriori算法
  • 6.3.2 Apriori算法的主要指标
  • 6.3.3 Apriori算法的基本步骤
  • 6.4 案例:信用卡产品交叉销售
  • 6.4.1 准备数据
  • 6.4.2 SAS实现
  • 6.4.3 结果分析
  • 6.4.4 序列关联分析
  • 6.4.5 结果应用
  • 6.5 本章小结
  • 第7章 社交网络分析,从“关系”的角度分析问题
  • 7.1 先看几张美轮美奂的图片
  • 7.2 社交网络分析方法
  • 7.2.1 定义
  • 7.2.2 应用场景
  • 7.2.3 网络识别算法
  • 7.3 案例:电商通过订单数据识别供应链
  • 7.3.1 供应链及供应链金融
  • 7.3.2 识别核心企业及其上下游关系
  • 7.3.3 分析结果的业务应用
  • 7.4 案例:P2P投资风险防范
  • 7.4.1 案例背景
  • 7.4.2 防范方法
  • 7.5 本章小结
  • 第8章 线性回归,预测客户价值
  • 8.1 数值预测
  • 8.2 回归与拟合
  • 8.2.1 回归就是拟合
  • 8.2.2 在Excel中添加趋势线预测
  • 8.3 案例:信用卡客户价值预测
  • 8.3.1 确定预测目标
  • 8.3.2 准备建模数据
  • 8.3.3 模型拟合
  • 8.3.4 模型评估
  • 8.4 基于客户价值分层的业务策略
  • 8.5 本章小结
  • 第9章 Logistic回归,精准营销的主要支撑算法
  • 9.1 大数据时代的精准营销
  • 9.1.1 精准营销
  • 9.1.2 基于大数据的精准营销模式
  • 9.1.3 如何做到精准
  • 9.2 Logistic回归算法介绍
  • 9.2.1 算法原理
  • 9.2.2 关键步骤
  • 9.3 案例:信用卡消费信贷产品的精准营销
  • 9.3.1 案例背景
  • 9.3.2 数据准备
  • 9.3.3 数据预处理
  • 9.3.4 建模
  • 9.3.5 模型评估
  • 9.4 预测模型的应用与评估
  • 9.5 本章小结
  • 第10章 决策树类算法,反欺诈模型“专家”
  • 10.1 决策树,重要的分类器
  • 10.2 决策树的关键思想
  • 10.2.1 理财客户画像案例背景
  • 10.2.2 关键思想一:递归划分
  • 10.2.3 关键思想二:剪枝
  • 10.3 案例:电商盗卡交易风险识别
  • 10.3.1 案例背景
  • 10.3.2 以SAS实现
  • 10.3.3 以Clementine实现
  • 10.3.4 以R实现
  • 10.4 随机森林
  • 10.5 本章小结
  • 第11章 数据可视化,是分析更是设计
  • 11.1 数据演示之道
  • 11.1.1 好“色”之图
  • 11.1.2 版式有形
  • 11.1.3 数据发声
  • 11.2 个性化地图
  • 11.2.1 案例背景:存款增长率指标展示
  • 11.2.2 获取地理位置的经纬度数据
  • 11.2.3 定制地图背景和图标
  • 11.2.4 生成地图
  • 11.3 文本分析
  • 11.3.1 案例:电商的客户评价分析
  • 11.3.2 分词
  • 11.3.3 词云制作
  • 11.3.4 情感分析
  • 11.4 本章小结
  • 第三部分 应用篇
  • 第12章 标签系统
  • 12.1 认识标签系统
  • 12.2 标签系统的设计
  • 12.2.1 标签系统的层次结构
  • 12.2.2 标签系统的更新规则
  • 12.2.3 机器学习模型转化为标签
  • 12.3 标签系统的实现
  • 12.3.1 标签映射表
  • 12.3.2 标签系统的前端实现
  • 12.3.3 标签系统的数据后端实现
  • 12.3.4 标签系统的在线接口实现
  • 12.4 本章小结
  • 第13章 数据自助营销平台
  • 13.1 数据自助营销平台的价值所在
  • 13.1.1 自动化营销,提升工作效率
  • 13.1.2 降低营销成本,提升用户体验
  • 13.1.3 个性化营销,提升响应率
  • 13.1.4 统一管理,便于效果追踪
  • 13.2 数据自助营销平台的实现原则
  • 13.2.1 数据营销活动的节点
  • 13.2.2 数据自助营销平台的基础:标签系统
  • 13.2.3 数据自助营销平台的批量任务
  • 13.2.4 实时数据营销
  • 13.3 数据自助营销平台的场景实例
  • 13.3.1 客户生命周期管理
  • 13.3.2 用卡激励计划
  • 13.4 本章小结
  • 第14章 基于Mahout的个性化推荐系统
  • 14.1 Mahout的推荐引擎
  • 14.1.1 Mahout的安装配置
  • 14.1.2 Mahout的使用方式
  • 14.1.3 协同过滤算法
  • 14.1.4 Mahout的推荐引擎
  • 14.2 规模与效率
  • 14.2.1 Mahout推荐算法的适用范围
  • 14.2.2 通过分布式解决规模和效率的问题
  • 14.3 实现一个推荐系统
  • 14.3.1 系统框架
  • 14.3.2 推荐系统的刷新
  • 14.3.3 部署一个可用的推荐系统
  • 14.4 本章小结
  • 第15章 图计算与社会网络
  • 15.1 社会网络和属性图
  • 15.2 Spark GraphX与Neo4j
  • 15.2.1 Scala编程语言
  • 15.2.2 Cypher查询语言
  • 15.3 使用Spark GraphX和Neo4j处理社会网络
  • 15.3.1 背景说明
  • 15.3.2 数据准备
  • 15.3.3 Spark GraphX处理原始网络
  • 15.3.4 Neo4j交互式查询分析
  • 15.3.5 更多的应用场景
  • 15.4 本章小结
展开全部

评分及书评

评分不足
2个评分
  • 用户头像
    给这本书评了
    5.0

    大数据方面的书籍可谓琳琅满目,有的讲解理论,有的介绍方法,有的传播理念。但是,大数据从业人员(如数据工程师、数据分析师、业务分析师、算法设计师等)应该掌握哪些知识与技能,如何应用数据解决现实的业务问题呢?恐怕最能给出答案的还是实际的数据从业者。

      转发
      评论

    出版方

    机械工业出版社有限公司

    机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。