展开全部

主编推荐语

本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。

内容简介

本书共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。

本书以丰富的练习为特色,每章的最后一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 彩图
  • 第一部分 基础知识
  • 第1章 预备知识
  • 1.1 Python基础
  • 1.2 NumPy基础
  • 1.3 习题
  • 第2章 pandas基础
  • 2.1 文件的读取和写入
  • 2.2 基本数据结构
  • 2.3 常用基本函数
  • 2.4 窗口
  • 2.5 习题
  • 第二部分 4类操作
  • 第3章 索引
  • 3.1 单级索引
  • 3.2 多级索引
  • 3.3 常用索引方法
  • 3.4 习题
  • 第4章 分组
  • 4.1 分组模式及其对象
  • 4.2 聚合函数
  • 4.3 变换和过滤
  • 4.4 跨列分组
  • 4.5 习题
  • 第5章 变形
  • 5.1 长宽表的变形
  • 5.2 其他变形方法
  • 5.3 习题
  • 第6章 连接
  • 6.1 关系连接
  • 6.2 其他连接
  • 6.3 习题
  • 第三部分 4类数据
  • 第7章 缺失数据
  • 7.1 缺失值的统计和删除
  • 7.2 缺失值的填充和插值
  • 7.3 Nullable类型
  • 7.4 习题
  • 第8章 文本数据
  • 8.1 str对象
  • 8.2 正则表达式基础
  • 8.3 文本处理的5类操作
  • 8.4 其他字符串方法
  • 8.5 习题
  • 第9章 分类数据
  • 9.1 cat对象
  • 9.2 有序类别
  • 9.3 区间类别
  • 9.4 习题
  • 第10章 时间序列数据
  • 10.1 时间戳
  • 10.2 时间差
  • 10.3 日期偏置
  • 10.4 时间序列操作
  • 10.5 习题
  • 第四部分 进阶实战
  • 第11章 数据观测
  • 11.1 可视化方法
  • 11.2 数据观测方法
  • 11.3 习题
  • 第12章 特征工程
  • 12.1 单特征构造
  • 12.2 多特征构造
  • 12.3 特征选择
  • 12.4 习题
  • 第13章 性能优化
  • 13.1 pandasic代码要义
  • 13.2 多进程加速
  • 13.3 利用Cython加速
  • 13.4 利用Numba加速
  • 13.5 习题
  • 资源与支持
展开全部

评分及书评

3.7
3个评分
  • 用户头像
    给这本书评了
    1.0
    此书不值得

    首先我是有 pandas 基础的人,看这本书给我的第一感觉:生涩,无味,且大部分问题没给人讲通!有点像是敷衍。我不知道我看到的时候,为什么评分那么高,我猜测是有人刷上去的评分!非常不值得看这书,看了让你对 pandas 害怕,(其实没什么难度)明明很简单的问题,这个作者非要拿一堆公式来解释,而且还没解释到根本,故作高深,就像是刷题。明明是 11 等于 2 的事情,他就跑去跟你讲华罗庚是如何证明的。 对于 a 是什么的问题,他不给你解释,直接讲如何得到的 b。非常没有水平的作用,极力不推荐。几乎是对着百度,一个知识点一个知识点补充看完的这书,太恶心人了。别看!

      转发
      2

    出版方

    人民邮电出版社

    人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。