展开全部

主编推荐语

通过虚拟的互联网O2O创业故事,逐步展开介绍创业各个阶段可能遇到的大数据课题,让读者身临其境,一起探寻大数据的奥秘。

内容简介

为了达到深入浅出、通俗易懂的效果,本书的第一大部分概述了大数据的主要技术,包括大数据的获取、存储、处理,还有架构设计的基本理念,以及常用的消息和缓存机制。这一部分你会发现关于Nutch、Flume、Hadoop、HBase、Redis、Hive、Kafka、Spark、Storm等的简介。对于数据处理的高级技术,本书着墨不少,但不乏对于信息检索和数据挖掘课题的探讨。例如站内搜索引擎、推荐系统、广告系统、聚类、分类和线性回归等。由于商业需求尤其看重实际产出,因此第一部分的最后还会分析常见的效果和性能评估。相信这部分对于构建读者的大数据知识体系会很有帮助。在每一章的最后,我们还会给出重要的参考图书,以便于读者继续深入学习。

目录

  • 版权信息
  • 推荐序一
  • 推荐序二
  • 前言
  • 第1章 抉择
  • 第2章 数据收集
  • 2.1 互联网数据收集
  • 2.1.1 网络爬虫
  • 2.1.2 Apache Nutch简介
  • 2.1.3 Heritrix简介
  • 2.2 内部数据收集
  • 2.2.1 Apache Flume简介
  • 2.2.2 Facebook Scribe和Logstash
  • 2.3 本章心得
  • 2.4 参考资料
  • 第3章 数据存储
  • 3.1 持久化存储
  • 3.1.1 Hadoop和HDFS
  • 3.1.2 HBase简介
  • 3.1.3 MongoDB
  • 3.2 非持久化存储
  • 3.2.1 缓存和散列
  • 3.2.2 Memcached和Berkeley DB简介
  • 3.2.3 Redis简介
  • 3.3 本章心得
  • 3.4 参考资料
  • 第4章 数据处理
  • 4.1 离线批量处理
  • 4.1.1 Hadoop的MapReduce
  • 4.1.2 Spark简介
  • 4.1.3 Hive简介
  • 4.1.4 Pig、Impala和Spark SQL
  • 4.2 提升及时性:消息机制
  • 4.2.1 ActiveMQ简介
  • 4.2.2 Kafka简介
  • 4.3 在线实时处理
  • 4.3.1 Storm简介
  • 4.3.2 Spark Streaming简介
  • 4.4 本章心得
  • 4.5 参考资料
  • 第5章 信息检索
  • 5.1 基本理念
  • 5.2 相关性
  • 5.2.1 布尔模型
  • 5.2.2 基于排序的布尔模型
  • 5.2.3 向量空间模型
  • 5.2.4 语言模型
  • 5.3 及时性
  • 5.4 与数据库查询的对比
  • 5.5 搜索引擎
  • 5.5.1 Web搜索中的链接分析
  • 5.5.2 电子商务中的商品排序
  • 5.5.3 多因素和基于学习的排序
  • 5.5.4 系统框架
  • 5.5.5 Lucene简介
  • 5.5.6 Solr简介
  • 5.5.7 Elasticsearch简介
  • 5.6 推荐系统
  • 5.6.1 推荐的核心要素
  • 5.6.2 推荐系统的分类
  • 5.6.3 混合模型
  • 5.6.4 系统架构
  • 5.6.5 Mahout
  • 5.7 在线广告
  • 5.7.1 在线广告的类型
  • 5.7.2 广告投放机制
  • 5.7.3 广告的拍卖机制
  • 5.7.4 广告系统架构
  • 5.8 本章心得
  • 5.9 参考资料
  • 第6章 数据挖掘
  • 6.1 基本理念
  • 6.2 数据的表示和预处理
  • 6.2.1 数据的表示
  • 6.2.2 数据的预处理
  • 6.3 机器学习算法
  • 6.3.1 监督学习——分类
  • 6.3.2 监督学习——回归
  • 6.3.3 非监督学习——聚类
  • 6.4 挖掘工具
  • 6.4.1 Mahout简介
  • 6.4.2 R简介
  • 6.5 本章心得
  • 6.6 参考资料
  • 第7章 效能评估
  • 7.1 效果评估
  • 7.1.1 离线评估
  • 7.1.2 非离线的评估
  • 7.2 性能评估
  • 7.2.1 计算复杂度
  • 7.2.2 应用系统性能
  • 7.2.3 JMeter工具
  • 7.3 本章心得
  • 7.4 参考资料
  • 第8章 大数据技术全景
  • 第9章 商品太多啦!需要搜索引擎
  • 9.1 业务需求
  • 9.2 产品设计和技术选型
  • 9.3 实现方案
  • 9.3.1 数据定义和配置
  • 9.3.2 集群搭建
  • 9.3.3 DIH配置
  • 第10章 能否更主动?还需要推荐引擎
  • 10.1 业务需求
  • 10.2 产品设计和技术选型
  • 10.3 实现方案
  • 10.3.1 基于内容特征的衡量
  • 10.3.2 基于行为特征的衡量
  • 10.3.3 提供在线服务
  • 第11章 这样做的效果如何
  • 11.1 业务需求
  • 11.2 产品设计和技术选型
  • 11.3 实现方案
  • 11.3.1 行为数据的定义和记录
  • 11.3.2 Flume和HDFS的集成
  • 11.3.3 通过Hive进行分析
  • 11.3.4 Kafka和Storm的集成
  • 第12章 这个搜索有点逊
  • 12.1 业务需求:还要搜得更多
  • 12.2 “还要搜得更多”:产品设计和技术选型
  • 12.3 “还要搜得更多”的方案实现
  • 12.3.1 HBase的部署
  • 12.3.2 HBase和Solr的集成
  • 12.4 业务需求:还要搜得更准
  • 12.5 “还要搜得更准”:产品设计和技术选型
  • 12.5.1 提升搜索排序的相关性
  • 12.5.2 提升搜索排序的整体效果
  • 12.6 “还要搜得更准”的方案实现
  • 12.7 业务需求:还要更快
  • 12.8 还要“变”得更快:产品设计和技术选型
  • 12.9 还要“搜”得更快:产品设计和技术选型
  • 12.10 业务需求:给点提示吧
  • 12.11 给点提示吧:产品设计和技术选型
  • 第13章 支持更高效的运营
  • 13.1 业务需求:互联网时代的CRM
  • 13.2 互联网时代的CRM:产品设计和技术选型
  • 13.3 业务需求:抓住捣蛋鬼
  • 13.4 抓住捣蛋鬼:产品设计和技术选型
  • 13.4.1 识别分类错放
  • 13.4.2 识别SEO作弊
  • 13.5 业务需求:销售之战
  • 13.6 销售之战:产品设计和技术选型
  • 13.6.1 设置合理的价格
  • 13.6.2 识别黄牛
  • 后记
展开全部

评分及书评

3.7
3个评分
  • 用户头像
    给这本书评了
    5.0

    李克强总理提出 “大众创业,万众创新”。在如此美好的大环境下,互联网创业如火如荼。各种模式的 O2O,各种精彩的移动 App,突然之间都冒了出来,正所谓 “忽如一夜春风来,千树万树梨花开”。而在其中,大数据因为蕴含着巨大的商业价值,成为这个时代的趋势之一。众人都希望利用好这个 “魔棒”,为自己的事业开疆扩土。

      转发
      评论
      用户头像
      给这本书评了
      4.0
      深入浅出,适合入门者学习

      讲解清晰,深入浅出。举例通俗易懂,比较贴切。基本上把大数据的架构主要内容都进行了讲解,还有很多图表表达,便于理解。对于入门者还是不错的。后面几张用实际的案例实操进行详细介绍,很直观。总体上偏商务应用,具体的架构组件仅讲解概念和原理,想进行深入学习的还需要更专业的书籍继续深入。

        转发
        评论

      出版方

      机械工业出版社有限公司

      机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。