互联网
类型
可以朗读
语音朗读
101千字
字数
2020-11-01
发行日期
展开全部
主编推荐语
Jupyter数据科学手册,初学者的实战指南,通过简单易懂的Python示例,掌握数据科学技能,学习线性代数和统计学的基础知识,为实际业务场景实现和保存机器学习模型。
内容简介
本书旨在成为读者进入数据科学领域的指南。全书共20章,涵盖了数据科学及其应用的各个方面,引入经典数据集将理论与实践相结合,采用Jupyter等工具,以Python语言由浅入深地介绍了数据科学及相关学科的基本概念、数据预处理、机器学习及时间序列等内容,并提供了不同的案例研究,以达到学以致用的效果。
通过阅读本书,读者将获得成为一名数据科学家所需的基本知识和技能。
本书适合有Python或其他编程语言基础,并对数据科学感兴趣的人员阅读。
目录
- 版权信息
- 版权声明
- 内容提要
- 作者简介
- 译者简介
- 致谢
- 前言
- 资源与支持
- 第1章 数据科学基本概念
- 1.1 数据的概念
- 1.1.1 结构化数据
- 1.1.2 非结构化数据
- 1.1.3 半结构化数据
- 1.2 数据科学的定义
- 1.3 数据科学家的工作
- 1.4 数据科学应用实例
- 1.5 为何Python适合数据科学
- 1.6 小结
- 第2章 软件安装与配置
- 2.1 系统要求
- 2.2 下载Anaconda
- 2.3 在Windows系统上安装Anaconda
- 2.4 在Linux系统上安装Anaconda
- 2.5 如何在Anaconda中安装新的Python库
- 2.6 打开笔记本——Jupyter
- 2.7 了解笔记本
- 2.8 小结
- 第3章 列表与字典
- 3.1 什么是列表
- 3.2 如何创建列表
- 3.3 列表的不同操作
- 3.4 列表与数组的差异
- 3.5 什么是字典
- 3.6 如何创建字典
- 3.7 字典的相关操作
- 3.8 小结
- 第4章 函数与包
- 4.1 Python的Help()函数
- 4.2 如何导入Python包
- 4.3 如何创建并调用函数
- 4.4 在函数中传递参数
- 4.5 函数的默认参数
- 4.6 如何在函数中使用未知参数
- 4.7 函数的全局与本地变量
- 4.8 Lambda函数
- 4.9 了解Python中的main方法
- 4.10 小结
- 第5章 NumPy基本概念
- 5.1 导入NumPy包
- 5.2 为何NumPy数组优于列表
- 5.3 NumPy数组属性
- 5.4 创建NumPy数组
- 5.5 访问NumPy数组中的元素
- 5.6 NumPy数组的切片
- 5.7 数组连接
- 5.8 小结
- 第6章 Pandas和数据帧
- 6.1 导入Pandas
- 6.2 Pandas数据结构
- 6.3 .loc[]和.iloc[]
- 6.4 一些有用的数据帧函数
- 6.5 处理数据帧中的缺失值
- 6.6 小结
- 第7章 与数据库交互
- 7.1 SQLAlchemy
- 7.2 安装SQLAlchemy包
- 7.3 如何使用SQLAlchemy
- 7.4 SQLAlchemy引擎配置
- 7.5 在数据库中新建表
- 7.6 在表中插入数据
- 7.7 更新记录
- 7.8 如何合并表格
- 7.8.1 内连接
- 7.8.2 左连接
- 7.8.3 右连接
- 7.9 小结
- 第8章 数据科学中的统计思维
- 8.1 数据科学中的统计学
- 8.2 统计数据/变量的类型
- 8.3 平均数、中位数和众数
- 8.4 概率的基本概念
- 8.5 统计分布
- 8.6 Pearson相关系数
- 8.7 概率密度函数
- 8.8 真实案例
- 8.9 统计推断与假设检验
- 8.10 小结
- 第9章 如何在Python中导入数据
- 9.1 导入TXT数据
- 9.2 导入CSV数据
- 9.3 导入Excel数据
- 9.4 导入JSON数据
- 9.5 导入腌制数据
- 9.6 导入压缩数据
- 9.7 小结
- 第10章 清洗导入的数据
- 10.1 了解数据
- 10.2 分析缺失值
- 10.3 丢弃缺失值
- 10.4 自动填充缺失值
- 10.5 如何缩放和归一化数据
- 10.6 如何解析日期
- 10.7 如何应用字符编码
- 10.8 清洗不一致的数据
- 10.9 小结
- 第11章 数据可视化
- 11.1 条形图
- 11.2 折线图
- 11.3 直方图
- 11.4 散点图
- 11.5 堆积图
- 11.6 箱线图
- 11.7 小结
- 第12章 数据预处理
- 12.1 关于案例研究
- 12.2 导入数据集
- 12.3 探索性数据分析
- 12.4 数据清洗与预处理
- 12.5 特征工程
- 12.6 小结
- 第13章 监督式机器学习
- 13.1 常见的机器学习术语
- 13.2 机器学习导论
- 13.3 常用机器学习算法列述
- 13.4 监督式机器学习基础
- 13.5 解决分类机器学习问题
- 13.6 为何要进行训练/测试拆分和交叉验证
- 13.7 解决回归机器学习问题
- 13.8 如何调整机器学习模型
- 13.9 如何处理sklearn中的分类变量
- 13.10 处理缺失数据的高级技术
- 13.11 小结
- 第14章 无监督式机器学习
- 14.1 为何选择无监督式机器学习
- 14.2 无监督式机器学习技术
- 14.2.1 聚类
- 14.2.2 主成分分析
- 14.3 案例研究
- 14.4 验证无监督式机器学习
- 14.5 小结
- 第15章 处理时间序列数据
- 15.1 为何时间序列重要
- 15.2 如何处理日期和时间
- 15.3 转换时间序列数据
- 15.4 操作时间序列数据
- 15.5 比较时间序列的增长率
- 15.6 如何改变时间序列频率
- 15.7 小结
- 第16章 时间序列法
- 16.1 时间序列预测的定义
- 16.2 预测的基本步骤
- 16.3 时间序列预测的技术
- 16.3.1 自回归
- 16.3.2 移动平均
- 16.3.3 自回归移动平均
- 16.3.4 自回归积分移动平均
- 16.3.5 季节性自回归积分移动平均
- 16.3.6 季节性自回归积分移动平均与外生回归因子
- 16.3.7 向量自回归移动平均
- 16.3.8 Holt-Winters指数平滑
- 16.4 预测网页的未来流量
- 16.5 小结
- 第17章 案例研究1
- 第18章 案例研究2
- 第19章 案例研究3
- 第20章 案例研究4
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。