互联网
类型
可以朗读
语音朗读
254千字
字数
2018-01-01
发行日期
展开全部
主编推荐语
一本书对数据挖掘进行了详细地入门引导。
内容简介
本书以实践为宗旨,对数据挖掘进行了详细地入门引导。本书囊括了比赛结果预测、电影推荐、特征提取、好友推荐、破解验证码、作者归属、新闻聚类等大量经典案例,并以此为基础提供了大量练习和额外活动。在练习中,本书介绍了数据挖掘的基本工具和基本方法;在额外活动中,本书为深入了解数据挖掘指明了方向。本书适合希望应用Python进行数据挖掘的程序员阅读。
目录
- 版权信息
- 数字版权声明
- 内容提要
- 译者序
- 前言
- 致谢
- 第1章 数据挖掘入门
- 1.1 什么是数据挖掘
- 1.2 使用Python和Jupyter Notebook
- 1.2.1 安装Python
- 1.2.2 安装Jupyter Notebook
- 1.2.3 安装scikit-learn
- 1.3 亲和性分析的简单示例
- 什么是亲和性分析
- 1.4 商品推荐
- 1.4.1 用NumPy加载数据集
- 1.4.2 实现规则的简单排序
- 1.4.3 挑选最佳规则
- 1.5 分类的简单示例
- 1.6 什么是分类
- 1.6.1 准备数据集
- 1.6.2 实现OneR算法
- 1.6.3 测试算法功能
- 1.7 本章小结
- 第2章 用scikit-learn估计器解决分类问题
- 2.1 scikit-learn估计器
- 2.1.1 最近邻算法
- 2.1.2 距离度量
- 2.1.3 加载数据集
- 2.1.4 形成标准的工作流程
- 2.1.5 运行算法
- 2.1.6 设置参数
- 2.2 预处理
- 2.2.1 标准预处理
- 2.2.2 组装成型
- 2.3 流水线
- 2.4 本章小结
- 第3章 用决策树预测获胜球队
- 3.1 加载数据集
- 3.1.1 收集数据
- 3.1.2 用pandas加载数据集
- 3.1.3 清洗数据集
- 3.1.4 提取新特征
- 3.2 决策树
- 3.2.1 决策树的参数
- 3.2.2 决策树的使用
- 3.3 体育赛事结果预测
- 组装成型
- 3.4 随机森林
- 3.4.1 集成学习的原理
- 3.4.2 设置随机森林的参数
- 3.4.3 应用随机森林
- 3.4.4 创建特征
- 3.5 本章小结
- 第4章 用亲和性分析推荐电影
- 4.1 亲和性分析
- 4.1.1 亲和性分析算法
- 4.1.2 总体方法
- 4.2 电影推荐问题
- 获取数据集
- 4.3 Apriori算法的原理与实现
- 4.3.1 Apriori算法的基本思路
- 4.3.2 实现Apriori算法
- 4.3.3 提取关联规则
- 4.3.4 评估关联规则
- 4.4 本章小结
- 第5章 特征与scikit-learn转换器
- 5.1 特征提取
- 5.1.1 用模型表述现实
- 5.1.2 常见的特征模式
- 5.1.3 创建好的特征
- 5.2 特征的选取
- 选取最佳单个特征
- 5.3 特征创建
- 5.4 主成分分析
- 5.5 创建自己的转换器
- 5.5.1 转换器API
- 5.5.2 实现转换器
- 5.6 单元测试
- 5.7 组装成型
- 5.8 本章小结
- 第6章 用朴素贝叶斯算法探索社交媒体
- 6.1 消歧
- 6.2 从社交媒体下载数据
- 6.2.1 加载数据集并分类
- 6.2.2 创建可重现的Twitter数据集
- 6.3 文本转换器
- 6.3.1 词袋模型
- 6.3.2 n元语法特征
- 6.3.3 其他文本特征
- 6.4 朴素贝叶斯
- 6.4.1 理解贝叶斯定理
- 6.4.2 朴素贝叶斯算法
- 6.4.3 原理展示
- 6.5 朴素贝叶斯的应用
- 6.5.1 提取单词计数
- 6.5.2 把字典转换成矩阵
- 6.5.3 组装成型
- 6.5.4 用F1 score评估算法
- 6.6 从模型中找出有用的特征
- 6.7 本章小结
- 第7章 用图挖掘实现推荐关注
- 7.1 加载数据集
- 用现有模型分类
- 7.2 从Twitter获取关注者信息
- 构建网络
- 7.3 创建图
- 创建相似度图
- 7.4 寻找子图
- 7.4.1 连通分量
- 7.4.2 优化准则
- 7.5 本章小结
- 第8章 用神经网络识别验证码
- 8.1 人工神经网络
- 神经网络简介
- 8.2 创建数据集
- 8.2.1 绘制简单的验证码
- 8.2.2 按字母分割图像
- 8.2.3 创建训练数据集
- 8.3 训练与分类
- 反向传播算法
- 8.4 预测单词
- 8.4.1 用词典提升准确率
- 8.4.2 单词相似度的排名机制
- 8.4.3 组装成型
- 8.5 本章小结
- 第9章 作者归属问题
- 9.1 文档的作者归属
- 9.1.1 应用与场景
- 9.1.2 作者归属
- 9.2 获取数据
- 9.3 功能词的使用
- 9.3.1 统计功能词
- 9.3.2 用功能词分类
- 9.4 支持向量机
- 9.4.1 用支持向量机分类
- 9.4.2 核函数
- 9.5 字符n元语法
- 提取字符n元语法
- 9.6 安然(Enron)数据集
- 9.6.1 获取安然数据集
- 9.6.2 创建数据集加载函数
- 9.7 组装成型
- 9.8 评估
- 9.9 本章小结
- 第10章 聚类新闻文章
- 10.1 发现热门话题
- 10.1.1 用Web API获取数据
- 10.1.2 把reddit作为数据源
- 10.1.3 获取数据
- 10.2 从任意网站提取文本
- 10.2.1 寻找任意网站中的新闻报道内容
- 10.2.2 提取内容
- 10.3 为新闻文章分组
- 10.4 k-均值算法
- 10.4.1 评估结果
- 10.4.2 从聚类簇中提取话题信息
- 10.4.3 把聚类算法作为转换器
- 10.5 聚类集成
- 10.5.1 证据积累方法
- 10.5.2 工作原理
- 10.5.3 算法实现
- 10.6 在线学习
- 算法实现
- 10.7 本章小结
- 第11章 用深度神经网络实现图像中的对象检测
- 11.1 对象分类
- 使用案例
- 11.2 应用场景
- 11.3 深度神经网络
- 11.3.1 直观感受
- 11.3.2 实现深度神经网络
- 11.4 TensorFlow简介
- 11.5 使用Keras
- 卷积神经网络
- 11.6 GPU优化
- 11.6.1 适用GPU的计算场景
- 11.6.2 在GPU上运行代码
- 11.6.3 设置环境
- 11.7 应用
- 11.7.1 获取数据
- 11.7.2 创建神经网络
- 11.7.3 组装成型
- 11.8 本章小结
- 第12章 大数据处理
- 12.1 大数据
- 大数据的应用
- 12.2 MapReduce
- 12.2.1 直观感受
- 12.2.2 Hadoop MapReduce
- 12.3 应用MapReduce
- 获取数据
- 12.4 朴素贝叶斯预测
- mrjob包
- 12.5 提取博客文章
- 12.6 训练朴素贝叶斯
- 12.7 组装成型
- 12.8 在亚马逊EMR基础设施上训练
- 12.9 本章小结
- 附录A 下一步工作
- A.1 数据挖掘入门
- A.1.1 scikit-learn教程
- A.1.2 扩展Jupyter Notebook
- A.1.3 更多数据集
- A.1.4 其他评估指标
- A.1.5 更多应用思路
- A.2 用scikit-learn估计器解决分类问题
- A.2.1 最近邻算法的伸缩性
- A.2.2 更复杂的流水线
- A.2.3 比较分类器
- A.2.4 自动学习
- A.3 用决策树预测获胜球队
- A.3.1 更复杂的特征
- A.3.2 Dask
- A.3.3 研究
- A.4 用亲和性分析推荐电影
- A.4.1 新数据集
- A.4.2 等价类变换算法
- A.4.3 协同过滤
- A.5 特征与scikit-learn转换器
- A.5.1 增加噪声
- A.5.2 Vowpal Wabbit
- A.5.3 word2vec
- A.6 用朴素贝叶斯算法探索社交媒体
- A.6.1 垃圾信息检测
- A.6.2 自然语言处理与词性标注
- A.7 用图挖掘实现推荐关注
- A.7.1 更复杂的算法
- A.7.2 NetworkX
- A.8 用神经网络识别验证码
- A.8.1 更好(更坏?)的验证码
- A.8.2 深度神经网络
- A.8.3 强化学习
- A.9 作者归属问题
- A.9.1 增大样本
- A.9.2 博客数据集
- A.9.3 局部n元语法
- A.10 聚类新闻文章
- A.10.1 聚类的评估
- A.10.2 时域分析
- A.10.3 实时聚类
- A.11 用深度神经网络实现图像中的对象检测
- A.11.1 Mahotas
- A.11.2 Magenta
- A.12 大数据处理
- A.12.1 Hadoop课程
- A.12.2 Pydoop
- A.12.3 推荐引擎
- A.12.4 W.I.L.L
- A.13 更多资源
- A.13.1 Kaggle竞赛
- A.13.2 Coursera
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。