3.7 用户推荐指数
经济
类型
7.9
豆瓣评分
可以朗读
语音朗读
249千字
字数
2016-04-01
发行日期
展开全部
主编推荐语
通过虚拟的互联网O2O创业故事,逐步展开介绍创业各个阶段可能遇到的大数据课题,让读者身临其境,一起探寻大数据的奥秘。
内容简介
为了达到深入浅出、通俗易懂的效果,本书的第一大部分概述了大数据的主要技术,包括大数据的获取、存储、处理,还有架构设计的基本理念,以及常用的消息和缓存机制。这一部分你会发现关于Nutch、Flume、Hadoop、HBase、Redis、Hive、Kafka、Spark、Storm等的简介。对于数据处理的高级技术,本书着墨不少,但不乏对于信息检索和数据挖掘课题的探讨。例如站内搜索引擎、推荐系统、广告系统、聚类、分类和线性回归等。由于商业需求尤其看重实际产出,因此第一部分的最后还会分析常见的效果和性能评估。相信这部分对于构建读者的大数据知识体系会很有帮助。在每一章的最后,我们还会给出重要的参考图书,以便于读者继续深入学习。
目录
- 版权信息
- 推荐序一
- 推荐序二
- 前言
- 第1章 抉择
- 第2章 数据收集
- 2.1 互联网数据收集
- 2.1.1 网络爬虫
- 2.1.2 Apache Nutch简介
- 2.1.3 Heritrix简介
- 2.2 内部数据收集
- 2.2.1 Apache Flume简介
- 2.2.2 Facebook Scribe和Logstash
- 2.3 本章心得
- 2.4 参考资料
- 第3章 数据存储
- 3.1 持久化存储
- 3.1.1 Hadoop和HDFS
- 3.1.2 HBase简介
- 3.1.3 MongoDB
- 3.2 非持久化存储
- 3.2.1 缓存和散列
- 3.2.2 Memcached和Berkeley DB简介
- 3.2.3 Redis简介
- 3.3 本章心得
- 3.4 参考资料
- 第4章 数据处理
- 4.1 离线批量处理
- 4.1.1 Hadoop的MapReduce
- 4.1.2 Spark简介
- 4.1.3 Hive简介
- 4.1.4 Pig、Impala和Spark SQL
- 4.2 提升及时性:消息机制
- 4.2.1 ActiveMQ简介
- 4.2.2 Kafka简介
- 4.3 在线实时处理
- 4.3.1 Storm简介
- 4.3.2 Spark Streaming简介
- 4.4 本章心得
- 4.5 参考资料
- 第5章 信息检索
- 5.1 基本理念
- 5.2 相关性
- 5.2.1 布尔模型
- 5.2.2 基于排序的布尔模型
- 5.2.3 向量空间模型
- 5.2.4 语言模型
- 5.3 及时性
- 5.4 与数据库查询的对比
- 5.5 搜索引擎
- 5.5.1 Web搜索中的链接分析
- 5.5.2 电子商务中的商品排序
- 5.5.3 多因素和基于学习的排序
- 5.5.4 系统框架
- 5.5.5 Lucene简介
- 5.5.6 Solr简介
- 5.5.7 Elasticsearch简介
- 5.6 推荐系统
- 5.6.1 推荐的核心要素
- 5.6.2 推荐系统的分类
- 5.6.3 混合模型
- 5.6.4 系统架构
- 5.6.5 Mahout
- 5.7 在线广告
- 5.7.1 在线广告的类型
- 5.7.2 广告投放机制
- 5.7.3 广告的拍卖机制
- 5.7.4 广告系统架构
- 5.8 本章心得
- 5.9 参考资料
- 第6章 数据挖掘
- 6.1 基本理念
- 6.2 数据的表示和预处理
- 6.2.1 数据的表示
- 6.2.2 数据的预处理
- 6.3 机器学习算法
- 6.3.1 监督学习——分类
- 6.3.2 监督学习——回归
- 6.3.3 非监督学习——聚类
- 6.4 挖掘工具
- 6.4.1 Mahout简介
- 6.4.2 R简介
- 6.5 本章心得
- 6.6 参考资料
- 第7章 效能评估
- 7.1 效果评估
- 7.1.1 离线评估
- 7.1.2 非离线的评估
- 7.2 性能评估
- 7.2.1 计算复杂度
- 7.2.2 应用系统性能
- 7.2.3 JMeter工具
- 7.3 本章心得
- 7.4 参考资料
- 第8章 大数据技术全景
- 第9章 商品太多啦!需要搜索引擎
- 9.1 业务需求
- 9.2 产品设计和技术选型
- 9.3 实现方案
- 9.3.1 数据定义和配置
- 9.3.2 集群搭建
- 9.3.3 DIH配置
- 第10章 能否更主动?还需要推荐引擎
- 10.1 业务需求
- 10.2 产品设计和技术选型
- 10.3 实现方案
- 10.3.1 基于内容特征的衡量
- 10.3.2 基于行为特征的衡量
- 10.3.3 提供在线服务
- 第11章 这样做的效果如何
- 11.1 业务需求
- 11.2 产品设计和技术选型
- 11.3 实现方案
- 11.3.1 行为数据的定义和记录
- 11.3.2 Flume和HDFS的集成
- 11.3.3 通过Hive进行分析
- 11.3.4 Kafka和Storm的集成
- 第12章 这个搜索有点逊
- 12.1 业务需求:还要搜得更多
- 12.2 “还要搜得更多”:产品设计和技术选型
- 12.3 “还要搜得更多”的方案实现
- 12.3.1 HBase的部署
- 12.3.2 HBase和Solr的集成
- 12.4 业务需求:还要搜得更准
- 12.5 “还要搜得更准”:产品设计和技术选型
- 12.5.1 提升搜索排序的相关性
- 12.5.2 提升搜索排序的整体效果
- 12.6 “还要搜得更准”的方案实现
- 12.7 业务需求:还要更快
- 12.8 还要“变”得更快:产品设计和技术选型
- 12.9 还要“搜”得更快:产品设计和技术选型
- 12.10 业务需求:给点提示吧
- 12.11 给点提示吧:产品设计和技术选型
- 第13章 支持更高效的运营
- 13.1 业务需求:互联网时代的CRM
- 13.2 互联网时代的CRM:产品设计和技术选型
- 13.3 业务需求:抓住捣蛋鬼
- 13.4 抓住捣蛋鬼:产品设计和技术选型
- 13.4.1 识别分类错放
- 13.4.2 识别SEO作弊
- 13.5 业务需求:销售之战
- 13.6 销售之战:产品设计和技术选型
- 13.6.1 设置合理的价格
- 13.6.2 识别黄牛
- 后记
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。