展开全部

主编推荐语

数据挖掘入门读物,带你轻松踏上数据挖掘之旅。

内容简介

介绍数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社交媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。

目录

  • 版权信息
  • 译者序
  • 前言
  • 本书的阅读前提
  • 本书的目标读者
  • 排版约定
  • 客户支持
  • 下载示例代码
  • 下载配套PDF文件
  • 勘误表
  • 侵权
  • 问题
  • 第1章 开始数据挖掘之旅
  • 1.1 数据挖掘简介
  • 1.2 使用Python和IPython Notebook
  • 1.3 亲和性分析示例
  • 1.4 分类问题的简单示例
  • 1.5 什么是分类
  • 1.6 小结
  • 第2章 用scikit-learn估计器分类
  • 2.1 scikit-learn估计器
  • 2.2 流水线在预处理中的应用
  • 2.3 流水线
  • 2.4 小结
  • 第3章 用决策树预测获胜球队
  • 3.1 加载数据集
  • 3.2 决策树
  • 3.3 NBA比赛结果预测
  • 3.4 随机森林
  • 3.5 小结
  • 第4章 用亲和性分析方法推荐电影
  • 4.1 亲和性分析
  • 4.2 电影推荐问题
  • 4.3 Apriori算法的实现
  • 4.4 抽取关联规则
  • 4.5 小结
  • 第5章 用转换器抽取特征
  • 5.1 特征抽取
  • 5.2 特征选择
  • 5.3 创建特征
  • 5.4 创建自己的转换器
  • 5.5 小结
  • 第6章 使用朴素贝叶斯进行社会媒体挖掘
  • 6.1 消歧
  • 6.2 文本转换器
  • 6.3 朴素贝叶斯
  • 6.4 应用
  • 6.5 小结
  • 第7章 用图挖掘找到感兴趣的人
  • 7.1 加载数据集
  • 7.2 寻找子图
  • 7.3 小结
  • 第8章 用神经网络破解验证码
  • 8.1 人工神经网络
  • 8.2 创建数据集
  • 8.3 训练和分类
  • 8.4 用词典提升正确率
  • 8.5 小结
  • 第9章 作者归属问题
  • 9.1 为作品找作者
  • 9.2 功能词
  • 9.3 支持向量机
  • 9.4 字符N元语法
  • 9.5 使用安然公司数据集
  • 9.6 小结
  • 第10章 新闻语料分类
  • 10.1 获取新闻文章
  • 10.2 从任意网站抽取文本
  • 10.3 新闻语料聚类
  • 10.4 聚类融合
  • 10.5 线上学习
  • 10.6 小结
  • 第11章 用深度学习方法为图像中的物体进行分类
  • 11.1 物体分类
  • 11.2 应用场景和目标
  • 11.3 深度神经网络
  • 11.4 GPU优化
  • 11.5 环境搭建
  • 11.6 应用
  • 11.7 小结
  • 第12章 大数据处理
  • 12.1 大数据
  • 12.2 大数据应用场景和目标
  • 12.3 MapReduce
  • 12.4 应用
  • 12.5 小结
  • 附录 接下来的方向
  • 第1章——开始数据挖掘之旅
  • 第2章——用scikit-learn估计器分类
  • 第3章——用决策树预测获胜球队
  • 第4章——用亲和性分析方法推荐电影
  • 第5章——用转换器抽取特征
  • 第6章——使用朴素贝叶斯进行社会媒体挖掘
  • 第7章——用图挖掘找到感兴趣的人
  • 第8章——用神经网络破解验证码
  • 第9章——作者归属问题
  • 第10章——新闻语料分类
  • 第11章——用深度学习方法为图像中的物体进行分类
  • 第12章——大数据处理
  • 看完了
展开全部

评分及书评

评分不足
1个评分
  • 用户头像
    给这本书评了
    4.0
    充满干货的数据挖掘书籍

    这本书明显要比昨天看的那本书专业很多,里面真的是在介绍具体的数据挖掘技术。看完这本书,才知道 python 底层的库可以做如此多的事情。小到文本特征抽取,大到 MapReduce。最难能可贵的是,这本书里附有大量的 python 源代码,基本可以照搬着去练习。另外,在具体的数据挖掘案例中,作者梳理梳理一套八股文式的流程套路。包括文本数据库下载、转换器设计、文本特征抽取、贝叶斯分类等。当我们要用到文本分类,感兴趣推荐等功能时,就可以来这本书参考具体的流程方法。书中也从浅入深的介绍了如何做一个简单的推荐系统,利用亲和性分析进行统计,并利用 Apriori 方法进行优化。在介绍数据挖掘的具体概念和实践之余,作者还介绍了各个相关的 python 库,在本书的最后,还有针对各个专项库的学习页面和链接,方便我们进行刻意练习。看完这本书后,我发现,传统的数据挖掘是从数据中寻找未知的规律,而在具体的工业视觉应用中的数据挖掘,是通过具体的规律和规则来寻找数据。两者恰好是反过来的,发现这个规律,我自己很激动。总体来说,这是一个非常不错的数据挖掘方面的书籍,推荐给大家。

      转发
      评论

    出版方

    人民邮电出版社·图灵出品

    图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。