3.7 用户推荐指数
互联网
类型
8.9
豆瓣评分
可以朗读
语音朗读
332千字
字数
2022-07-01
发行日期
展开全部
主编推荐语
本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。
内容简介
本书共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。
本书以丰富的练习为特色,每章的最后一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。
目录
- 版权信息
- 内容提要
- 前言
- 彩图
- 第一部分 基础知识
- 第1章 预备知识
- 1.1 Python基础
- 1.2 NumPy基础
- 1.3 习题
- 第2章 pandas基础
- 2.1 文件的读取和写入
- 2.2 基本数据结构
- 2.3 常用基本函数
- 2.4 窗口
- 2.5 习题
- 第二部分 4类操作
- 第3章 索引
- 3.1 单级索引
- 3.2 多级索引
- 3.3 常用索引方法
- 3.4 习题
- 第4章 分组
- 4.1 分组模式及其对象
- 4.2 聚合函数
- 4.3 变换和过滤
- 4.4 跨列分组
- 4.5 习题
- 第5章 变形
- 5.1 长宽表的变形
- 5.2 其他变形方法
- 5.3 习题
- 第6章 连接
- 6.1 关系连接
- 6.2 其他连接
- 6.3 习题
- 第三部分 4类数据
- 第7章 缺失数据
- 7.1 缺失值的统计和删除
- 7.2 缺失值的填充和插值
- 7.3 Nullable类型
- 7.4 习题
- 第8章 文本数据
- 8.1 str对象
- 8.2 正则表达式基础
- 8.3 文本处理的5类操作
- 8.4 其他字符串方法
- 8.5 习题
- 第9章 分类数据
- 9.1 cat对象
- 9.2 有序类别
- 9.3 区间类别
- 9.4 习题
- 第10章 时间序列数据
- 10.1 时间戳
- 10.2 时间差
- 10.3 日期偏置
- 10.4 时间序列操作
- 10.5 习题
- 第四部分 进阶实战
- 第11章 数据观测
- 11.1 可视化方法
- 11.2 数据观测方法
- 11.3 习题
- 第12章 特征工程
- 12.1 单特征构造
- 12.2 多特征构造
- 12.3 特征选择
- 12.4 习题
- 第13章 性能优化
- 13.1 pandasic代码要义
- 13.2 多进程加速
- 13.3 利用Cython加速
- 13.4 利用Numba加速
- 13.5 习题
- 资源与支持
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。