计算机
类型
可以朗读
语音朗读
166千字
字数
2020-06-01
发行日期
展开全部
主编推荐语
数据驱动时代: 本书教授利用Python、Pandas实现数据科学与商业应用。
内容简介
这是一个数据驱动的时代,如何解读数据,将数据转变为知识、利用知识做出决策将是所有企业必不可少的能力。在数据分析过程中我们清洗数据,探索数据,利用数据进行决策。本书将以当前最流行数据科学分析工具Python为基础介绍如何构建基于Python的数据科学环境,利用Pandas处理与分析数据,如何利用Matplotlib以及Seaborn进行数据可视化。同时本书还将以商业应用为目标,通过学习还将掌握何利用学习到的Python数据分析知识来完成客户留存分析,同期群分析,时间序列分析,产品销售数据的关联分析,客户聚类,统计检验等数据分析。
目录
- 封面页
- 书名页
- 版权页
- 内容简介
- 作者简介
- 前 言
- 目录
- 第1章 数据分析与Python
- 1.1 数据分析概述
- 1.1.1 数据分析兴起与发展的时代背景
- 1.1.2 什么是数据分析
- 1.1.3 数据分析的发展方向
- 1.1.4 大数据与厚数据
- 1.1.5 数据挖掘、机器学习与深度学习
- 1.2 数据项目
- 1.2.1 定义数据项目
- 1.2.2 数据项目团队的组成
- 1.2.3 数据项目的分析流程
- 1.3 Python与数据分析的关系
- 1.3.1 为什么要用Python进行数据分析
- 1.3.2 Python的数据分析系统
- 1.4 数据分析人员的学习地图
- 1.4.1 怎样成为数据分析人员
- 1.4.2 技能树养成之路
- 第2章 Python基础
- 2.1 Python简介
- 2.1.1 执行Python程序的主要方式
- 2.1.2 编写Python程序
- 2.1.3 相关的开发管理工具
- 2.2 开发环境准备
- 2.2.1 Anaconda
- 2.2.2 Jupyter Notebook
- 2.3 一个简单的范例
- 2.4 数据类型
- 2.4.1 数值
- 2.4.2 字符串
- 2.4.3 容器
- 2.5 数据运算
- 2.6 流程控制
- 2.6.1 条件判断
- 2.6.2 while循环
- 2.6.3 for循环
- 2.6.4 循环中断
- 2.7 函数与类
- 2.7.1 函数
- 2.7.2 类
- 2.8 错误处理
- 第3章 数据来源与获取
- 3.1 数据来源与数据格式
- 3.1.1 数据来源
- 3.1.2 数据格式
- 3.2 开放数据及其来源
- 3.2.1 什么是开放数据
- 3.2.2 常见的开放数据来源
- 3.3 如何使用Python存取数据
- 3.3.1 下载文件
- 3.3.2 读写文件
- 3.3.3 自动读写文件
- 3.3.4 读文件范例
- 3.4 API数据来源与请求串接存取
- 3.4.1 Requests库
- 3.4.2 常见的API串接手法
- 第4章 网络爬虫的技术和实战
- 4.1 认识HTTP网站架构与数据沟通方式
- 4.1.1 网站前后端运作架构
- 4.1.2 网页结构解析
- 4.1.3 静态网页与动态网页
- 4.2 网页爬虫之静态网页篇
- 4.2.1 静态网页概述
- 4.2.2 使用Requests取得网页数据
- 4.2.3 使用BeautifulSoup解析网页
- 4.2.4 静态网页爬虫的实际案例
- 4.3 网页爬虫之动态网页篇
- 4.3.1 动态网页概述
- 4.3.2 自动化浏览器交互
- 4.3.3 模拟调用API
- 4.3.4 动态网页爬虫的实际案例
- 4.4 实践中的爬虫应用
- 4.4.1 其他Python爬虫工具
- 4.4.2 防爬虫机制与处理策略
- 4.4.3 自动持续更新的爬虫程序
- 第5章 常见的数据分析工具
- 5.1 高效能的数学运算工具NumPy
- 5.1.1 贴近数学向量的数据结构NdArray
- 5.1.2 从一个简单的例子出发
- 5.1.3 数组的建立
- 5.1.4 数据选取
- 5.1.5 基本操作与运算
- 5.1.6 自带函数与通用函数
- 5.1.7 迭代与循环
- 5.1.8 利用数组进行数据处理
- 5.2 串起数据与程序分析工具Pandas
- 5.2.1 面向数据集的数据结构:Series与DataFrame
- 5.2.2 建立对象
- 5.2.3 数据选取
- 5.2.4 插入与丢弃数据
- 5.2.5 算术运算和数据对齐
- 5.2.6 排序
- 5.2.7 迭代与重复操作
- 5.2.8 数据合并与重组
- 5.2.9 存取外部数据
- 5.3 可视化呈现数据工具Matplotlib
- 5.3.1 Matplotlib与pyplot
- 5.3.2 图表信息
- 5.3.3 处理多个图形
- 5.3.4 完整的Matplotmap图
- 5.3.5 其他图表
- 第6章 定义问题与观察数据
- 6.1 如何定义一个数据项目
- 6.2 如何学习并开始一个数据项目
- 6.2.1 如何学习数据分析
- 6.2.2 如何开始一个数据项目
- 6.3 观察数据的N件事
- 6.3.1 准备数据
- 6.3.2 明确数据的关注点
- 6.3.3 观察数据的步骤
- 6.4 示范如何观察数据
- 6.4.1 房屋数据集
- 6.4.2 犯罪数据集
- 第7章 数据清理与类型转换
- 7.1 清理缺失或错误数据
- 7.1.1 可以学习的数据
- 7.1.2 从外部数据到程序
- 7.1.3 哪些是需要被处理的数据
- 7.2 选取和筛选数据
- 7.2.1 DataFrame的基本操作
- 7.2.2 选取和筛选数据的方式
- 7.3 定义缺失值与查阅数据
- 7.3.1 定义缺失值
- 7.3.2 查阅栏位是否有缺失值
- 7.4 缺失值处理策略
- 7.4.1 用内建函数处理缺失值
- 7.4.2 缺失值处理策略实例
- 7.5 数据类型及其转换
- 7.5.1 数据类型
- 7.5.2 数据类型转换
- 第8章 数据探索与可视化
- 8.1 数据探索概述
- 8.1.1 什么是数据探索
- 8.1.2 身为数据分析者的敏锐
- 8.1.3 常见的数据探索方法
- 8.1.4 进行数据探索的目的
- 8.2 统合性数据描述
- 8.3 利用描述统计认识数据
- 8.3.1 描述统计
- 8.3.2 统计量分析
- 8.3.3 相关性分析
- 8.3.4 数据聚合
- 8.3.5 数据透视表与交叉统计表
- 8.4 利用可视化图表探索数据
- 8.4.1 数据可视化与探索图
- 8.4.2 常见的图表实例
- 8.5 数据探索实战分享
- 8.5.1 2013年美国社区调查
- 8.5.2 波士顿房屋数据集
- 第9章 特征工程
- 9.1 特征工程概述
- 9.1.1 特征工程是什么
- 9.1.2 为什么要做特征工程
- 9.1.3 如何做特征工程
- 9.2 异常值处理
- 9.2.1 异常值检查
- 9.2.2 处置异常值的方式
- 9.3 特征缩放
- 9.3.1 正规化
- 9.3.2 标准化
- 9.4 数据转换
- 9.4.1 将连续数据转换为离散数据
- 9.4.2 将类别数据转换为数值数据
- 9.5 特征操作
- 9.5.1 特征重建
- 9.5.2 连续特征组合
- 9.5.3 离散特征组合
- 9.6 特征选择
- 9.6.1 过滤式
- 9.6.2 包裹式
- 9.6.3 嵌入式
- 9.7 特征提取与降维
- 9.7.1 维度灾难
- 9.7.2 主成分分析
- 9.7.3 线性判别分析
- 第10章 示例应用
- 10.1 示例应用1:泰坦尼克号
- 10.1.1 使用数据集与背景
- 10.1.2 定义问题与观察数据
- 10.1.3 数据清理与类型转换
- 10.1.4 数据探索与可视化
- 10.1.5 特征工程
- 10.1.6 机器学习
- 10.2 示例应用2:房价预测
- 10.2.1 使用数据集与背景
- 10.2.2 定义问题与观察数据
- 10.2.3 数据清理与类型转换
- 10.2.4 数据探索与可视化
- 10.2.5 特征工程
- 10.2.6 机器学习
- 10.3 示例应用3:Quora
- 10.3.1 使用数据集与背景
- 10.3.2 定义问题与观察数据
- 10.3.3 特征工程与数据探索
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。