展开全部

主编推荐语

一周掌握常用的数据科学算法,提供完整源代码实现。

内容简介

数据科学(Data Science)是从数据中提取知识的技术,是一门有关机器学习、统计学与数据挖掘的交叉学科。数据科学包含了多种领域的不同元素,包括信号处理、数学、概率模型技术和理论、计算机编程、统计学等。

本书讲解了7种重要的数据分析方法,它们分别是k最近邻算法、朴素贝叶斯算法、决策树、随机森林、k-means聚类、回归分析以及时间序列分析。全书共7章,每一章都以一个简单的例子开始,先讲解算法的基本概念与知识,然后通过对案例进行扩展以讲解一些特殊的分析算法。这种方式有益于读者深刻理解算法。本书适合数据分析人员、机器学习领域的从业人员以及对算法感兴趣的读者阅读。

目录

  • 版权信息
  • 内容提要
  • 作者简介
  • 致谢
  • 评阅者简介
  • 前言
  • 本书涵盖的内容
  • 阅读本书所需要的开发工具
  • 本书适合的读者
  • 体例约定
  • 资源与支持
  • 配套资源
  • 提交勘误
  • 与我们联系
  • 关于异步社区和异步图书
  • 第1章 用k最近邻算法解决分类问题
  • 1.1 Mary对温度的感觉
  • 1.2 实现k最近邻算法
  • 1.3 意大利地区的示例——选择k值
  • 1.4 房屋所有权——数据转换
  • 1.5 文本分类——使用非欧几里德距离
  • 1.6 文本分类——更高维度的k-NN
  • 1.7 小结
  • 1.8 习题
  • 第2章 朴素贝叶斯
  • 2.1 医疗检查——贝叶斯定理的基本应用
  • 2.2 贝叶斯定理的证明及其扩展
  • 贝叶斯定理的扩展
  • 2.3 西洋棋游戏——独立事件
  • 2.4 朴素贝叶斯分类器的实现
  • 2.5 西洋棋游戏——相关事件
  • 2.6 性别分类——基于连续随机变量的贝叶斯定理
  • 2.7 小结
  • 2.8 习题
  • 第3章 决策树
  • 3.1 游泳偏好——用决策树表示数据
  • 3.2 信息论
  • 3.2.1 信息熵
  • 3.2.2 信息增益
  • 3.2.3 游泳偏好——计算信息增益
  • 3.3 ID3算法——构造决策树
  • 3.3.1 游泳偏好——用ID3算法构造决策树
  • 3.3.2 实现
  • 3.4 用决策树进行分类
  • 3.4.1 用“游泳偏好”决策树对数据样本进行分类
  • 3.4.2 下棋——用决策树分析
  • 3.4.3 购物——处理数据不一致
  • 3.5 小结
  • 3.6 习题
  • 第4章 随机森林
  • 4.1 随机森林算法概述
  • 随机森林构造概述
  • 4.2 游泳偏好——随机森林分析法
  • 4.2.1 随机森林构造
  • 4.2.2 随机森林归类法
  • 4.3 随机森林算法的实现
  • 4.4 下棋实例
  • 构建随机森林
  • 4.5 购物分析——克服随机数据的不一致性以及度量置信水平
  • 4.6 小结
  • 4.7 习题
  • 第5章 k-means聚类
  • 5.1 家庭收入——聚类为k个簇
  • 5.1.1 k-means聚类算法
  • 5.1.2 以家庭收入为例的k-means聚类算法
  • 5.2 性别分类——聚类分类
  • 5.3 k-means聚类算法的实现
  • 5.3.1 性别分类的输入数据
  • 5.3.2 性别分类数据的程序输出
  • 5.4 房产所有权示例——选择簇的数量
  • 5.5 小结
  • 5.6 习题
  • 第6章 回归分析
  • 6.1 华氏温度和摄氏温度的转换——基于完整数据的线性回归
  • 6.2 根据身高预测体重——基于实际数据的线性回归
  • 6.3 梯度下降算法及实现
  • 6.3.1 梯度下降算法
  • 6.3.2 可视化——R和梯度下降算法实现模型的比较
  • 6.4 根据距离预测飞行时长
  • R分析
  • 6.5 弹道飞行分析——非线性模型
  • R分析
  • 6.6 小结
  • 6.7 习题
  • 第7章 时间序列分析
  • 7.1 商业利润——趋势分析
  • 7.2 电子商店的销售额——季节性分析
  • 7.2.1 使用R分析趋势
  • 7.2.2 季节性分析
  • 7.3 小结
  • 7.4 习题
  • 附录A 统计
  • A.1 基本概念
  • A.2 贝叶斯推理
  • A.3 分布
  • A.4 交叉验证
  • A.5 A/B测试
  • 附录B R参考
  • B.1 介绍
  • B.2 数据类型
  • B.3 线性回归
  • 附录C Python参考
  • C.1 介绍
  • C.2 数据类型
  • C.3 控制流
  • 附录D 数据科学中的算法和方法术语
展开全部

评分及书评

4.7
3个评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。