展开全部

主编推荐语

一本书对数据挖掘进行了详细地入门引导。

内容简介

本书以实践为宗旨,对数据挖掘进行了详细地入门引导。本书囊括了比赛结果预测、电影推荐、特征提取、好友推荐、破解验证码、作者归属、新闻聚类等大量经典案例,并以此为基础提供了大量练习和额外活动。在练习中,本书介绍了数据挖掘的基本工具和基本方法;在额外活动中,本书为深入了解数据挖掘指明了方向。本书适合希望应用Python进行数据挖掘的程序员阅读。

目录

  • 版权信息
  • 数字版权声明
  • 内容提要
  • 译者序
  • 前言
  • 致谢
  • 第1章 数据挖掘入门
  • 1.1 什么是数据挖掘
  • 1.2 使用Python和Jupyter Notebook
  • 1.2.1 安装Python
  • 1.2.2 安装Jupyter Notebook
  • 1.2.3 安装scikit-learn
  • 1.3 亲和性分析的简单示例
  • 什么是亲和性分析
  • 1.4 商品推荐
  • 1.4.1 用NumPy加载数据集
  • 1.4.2 实现规则的简单排序
  • 1.4.3 挑选最佳规则
  • 1.5 分类的简单示例
  • 1.6 什么是分类
  • 1.6.1 准备数据集
  • 1.6.2 实现OneR算法
  • 1.6.3 测试算法功能
  • 1.7 本章小结
  • 第2章 用scikit-learn估计器解决分类问题
  • 2.1 scikit-learn估计器
  • 2.1.1 最近邻算法
  • 2.1.2 距离度量
  • 2.1.3 加载数据集
  • 2.1.4 形成标准的工作流程
  • 2.1.5 运行算法
  • 2.1.6 设置参数
  • 2.2 预处理
  • 2.2.1 标准预处理
  • 2.2.2 组装成型
  • 2.3 流水线
  • 2.4 本章小结
  • 第3章 用决策树预测获胜球队
  • 3.1 加载数据集
  • 3.1.1 收集数据
  • 3.1.2 用pandas加载数据集
  • 3.1.3 清洗数据集
  • 3.1.4 提取新特征
  • 3.2 决策树
  • 3.2.1 决策树的参数
  • 3.2.2 决策树的使用
  • 3.3 体育赛事结果预测
  • 组装成型
  • 3.4 随机森林
  • 3.4.1 集成学习的原理
  • 3.4.2 设置随机森林的参数
  • 3.4.3 应用随机森林
  • 3.4.4 创建特征
  • 3.5 本章小结
  • 第4章 用亲和性分析推荐电影
  • 4.1 亲和性分析
  • 4.1.1 亲和性分析算法
  • 4.1.2 总体方法
  • 4.2 电影推荐问题
  • 获取数据集
  • 4.3 Apriori算法的原理与实现
  • 4.3.1 Apriori算法的基本思路
  • 4.3.2 实现Apriori算法
  • 4.3.3 提取关联规则
  • 4.3.4 评估关联规则
  • 4.4 本章小结
  • 第5章 特征与scikit-learn转换器
  • 5.1 特征提取
  • 5.1.1 用模型表述现实
  • 5.1.2 常见的特征模式
  • 5.1.3 创建好的特征
  • 5.2 特征的选取
  • 选取最佳单个特征
  • 5.3 特征创建
  • 5.4 主成分分析
  • 5.5 创建自己的转换器
  • 5.5.1 转换器API
  • 5.5.2 实现转换器
  • 5.6 单元测试
  • 5.7 组装成型
  • 5.8 本章小结
  • 第6章 用朴素贝叶斯算法探索社交媒体
  • 6.1 消歧
  • 6.2 从社交媒体下载数据
  • 6.2.1 加载数据集并分类
  • 6.2.2 创建可重现的Twitter数据集
  • 6.3 文本转换器
  • 6.3.1 词袋模型
  • 6.3.2 n元语法特征
  • 6.3.3 其他文本特征
  • 6.4 朴素贝叶斯
  • 6.4.1 理解贝叶斯定理
  • 6.4.2 朴素贝叶斯算法
  • 6.4.3 原理展示
  • 6.5 朴素贝叶斯的应用
  • 6.5.1 提取单词计数
  • 6.5.2 把字典转换成矩阵
  • 6.5.3 组装成型
  • 6.5.4 用F1 score评估算法
  • 6.6 从模型中找出有用的特征
  • 6.7 本章小结
  • 第7章 用图挖掘实现推荐关注
  • 7.1 加载数据集
  • 用现有模型分类
  • 7.2 从Twitter获取关注者信息
  • 构建网络
  • 7.3 创建图
  • 创建相似度图
  • 7.4 寻找子图
  • 7.4.1 连通分量
  • 7.4.2 优化准则
  • 7.5 本章小结
  • 第8章 用神经网络识别验证码
  • 8.1 人工神经网络
  • 神经网络简介
  • 8.2 创建数据集
  • 8.2.1 绘制简单的验证码
  • 8.2.2 按字母分割图像
  • 8.2.3 创建训练数据集
  • 8.3 训练与分类
  • 反向传播算法
  • 8.4 预测单词
  • 8.4.1 用词典提升准确率
  • 8.4.2 单词相似度的排名机制
  • 8.4.3 组装成型
  • 8.5 本章小结
  • 第9章 作者归属问题
  • 9.1 文档的作者归属
  • 9.1.1 应用与场景
  • 9.1.2 作者归属
  • 9.2 获取数据
  • 9.3 功能词的使用
  • 9.3.1 统计功能词
  • 9.3.2 用功能词分类
  • 9.4 支持向量机
  • 9.4.1 用支持向量机分类
  • 9.4.2 核函数
  • 9.5 字符n元语法
  • 提取字符n元语法
  • 9.6 安然(Enron)数据集
  • 9.6.1 获取安然数据集
  • 9.6.2 创建数据集加载函数
  • 9.7 组装成型
  • 9.8 评估
  • 9.9 本章小结
  • 第10章 聚类新闻文章
  • 10.1 发现热门话题
  • 10.1.1 用Web API获取数据
  • 10.1.2 把reddit作为数据源
  • 10.1.3 获取数据
  • 10.2 从任意网站提取文本
  • 10.2.1 寻找任意网站中的新闻报道内容
  • 10.2.2 提取内容
  • 10.3 为新闻文章分组
  • 10.4 k-均值算法
  • 10.4.1 评估结果
  • 10.4.2 从聚类簇中提取话题信息
  • 10.4.3 把聚类算法作为转换器
  • 10.5 聚类集成
  • 10.5.1 证据积累方法
  • 10.5.2 工作原理
  • 10.5.3 算法实现
  • 10.6 在线学习
  • 算法实现
  • 10.7 本章小结
  • 第11章 用深度神经网络实现图像中的对象检测
  • 11.1 对象分类
  • 使用案例
  • 11.2 应用场景
  • 11.3 深度神经网络
  • 11.3.1 直观感受
  • 11.3.2 实现深度神经网络
  • 11.4 TensorFlow简介
  • 11.5 使用Keras
  • 卷积神经网络
  • 11.6 GPU优化
  • 11.6.1 适用GPU的计算场景
  • 11.6.2 在GPU上运行代码
  • 11.6.3 设置环境
  • 11.7 应用
  • 11.7.1 获取数据
  • 11.7.2 创建神经网络
  • 11.7.3 组装成型
  • 11.8 本章小结
  • 第12章 大数据处理
  • 12.1 大数据
  • 大数据的应用
  • 12.2 MapReduce
  • 12.2.1 直观感受
  • 12.2.2 Hadoop MapReduce
  • 12.3 应用MapReduce
  • 获取数据
  • 12.4 朴素贝叶斯预测
  • mrjob包
  • 12.5 提取博客文章
  • 12.6 训练朴素贝叶斯
  • 12.7 组装成型
  • 12.8 在亚马逊EMR基础设施上训练
  • 12.9 本章小结
  • 附录A 下一步工作
  • A.1 数据挖掘入门
  • A.1.1 scikit-learn教程
  • A.1.2 扩展Jupyter Notebook
  • A.1.3 更多数据集
  • A.1.4 其他评估指标
  • A.1.5 更多应用思路
  • A.2 用scikit-learn估计器解决分类问题
  • A.2.1 最近邻算法的伸缩性
  • A.2.2 更复杂的流水线
  • A.2.3 比较分类器
  • A.2.4 自动学习
  • A.3 用决策树预测获胜球队
  • A.3.1 更复杂的特征
  • A.3.2 Dask
  • A.3.3 研究
  • A.4 用亲和性分析推荐电影
  • A.4.1 新数据集
  • A.4.2 等价类变换算法
  • A.4.3 协同过滤
  • A.5 特征与scikit-learn转换器
  • A.5.1 增加噪声
  • A.5.2 Vowpal Wabbit
  • A.5.3 word2vec
  • A.6 用朴素贝叶斯算法探索社交媒体
  • A.6.1 垃圾信息检测
  • A.6.2 自然语言处理与词性标注
  • A.7 用图挖掘实现推荐关注
  • A.7.1 更复杂的算法
  • A.7.2 NetworkX
  • A.8 用神经网络识别验证码
  • A.8.1 更好(更坏?)的验证码
  • A.8.2 深度神经网络
  • A.8.3 强化学习
  • A.9 作者归属问题
  • A.9.1 增大样本
  • A.9.2 博客数据集
  • A.9.3 局部n元语法
  • A.10 聚类新闻文章
  • A.10.1 聚类的评估
  • A.10.2 时域分析
  • A.10.3 实时聚类
  • A.11 用深度神经网络实现图像中的对象检测
  • A.11.1 Mahotas
  • A.11.2 Magenta
  • A.12 大数据处理
  • A.12.1 Hadoop课程
  • A.12.2 Pydoop
  • A.12.3 推荐引擎
  • A.12.4 W.I.L.L
  • A.13 更多资源
  • A.13.1 Kaggle竞赛
  • A.13.2 Coursera
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。