展开全部

主编推荐语

资深数据分析师撰写,以新版Python3.10作为数据分析与挖掘的编程语言,循序渐进地介绍了Python数据分析的方法与技巧以及机器学习算法及其应用案例。

内容简介

全书首先讲解Python基础语法,以便于从未接触过编程的读者能够快速上手,然后介绍了当前流行的常用数据分析工具,如数值计算工具NumPy、数据处理工具Pandas、数据可视化工具Matplotlib和数据挖掘工具Sklearn等,后介绍了10大常用机器学习算法及其在数据挖掘中的应用,针对每一个算法均给出了案例实现,以便于读者能够学有所用。

本书凝聚作者十余年工作心得,以丰富实例介绍理论知识,并给出大量应用实践,很适合初入数据分析职场的从业者提升技能。

本书也可以作为统计学、数学、经济学、金融学、管理学以及相关理工科专业的本科生、研究生的教学参考书。

目录

  • 版权信息
  • 内容简介
  • 作者简介
  • 前言
  • 第1章 构建数据分析开发环境
  • 1.1 数据分析概述
  • 1.1.1 为什么要进行数据分析
  • 1.1.2 数据分析的流程与思维
  • 1.2 开发环境的构建
  • 1.2.1 安装Anaconda
  • 1.2.2 安装Jupyter库
  • 1.2.3 安装PyCharm社区版
  • 1.2.4 包管理工具
  • 1.2.5 环境测试
  • 1.3 必会的Python数据分析包
  • 1.3.1 NumPy数组操作
  • 1.3.2 Pandas数据清洗
  • 1.3.3 Matplotlib数据可视化
  • 1.3.4 Sklearn数据建模
  • 1.4 一个简单的数据分析案例
  • 1.5 小结与课后练习
  • 第2章 Python核心基础
  • 2.1 Python数据类型
  • 2.1.1 数值类型
  • 2.1.2 字符串类型
  • 2.1.3 列表类型
  • 2.1.4 元组类型
  • 2.1.5 集合类型
  • 2.1.6 字典类型
  • 2.2 Python基础语法
  • 2.2.1 代码行与缩进
  • 2.2.2 条件if及if嵌套
  • 2.2.3 循环:while与for
  • 2.2.4 格式化:format()与%
  • 2.3 Python高阶函数
  • 2.3.1 map()函数
  • 2.3.2 reduce()函数
  • 2.3.3 filter()函数
  • 2.3.4 sorted()函数
  • 2.4 Python编程技巧
  • 2.4.1 自动补全程序
  • 2.4.2 变量值的互换
  • 2.4.3 列表解析式
  • 2.4.4 元素序列解包
  • 2.5 小结与课后练习
  • 第3章 Python数据分析基础
  • 3.1 数据的读取
  • 3.1.1 本地离线数据
  • 3.1.2 Web在线数据
  • 3.1.3 常用数据库数据
  • 3.2 数据的索引
  • 3.2.1 创建与查看索引
  • 3.2.2 索引重构与恢复
  • 3.2.3 索引调整与排序
  • 3.3 数据的切片
  • 3.3.1 提取多列数据
  • 3.3.2 提取多行数据
  • 3.3.3 提取区域数据
  • 3.4 数据的聚合
  • 3.4.1 指定列数据统计
  • 3.4.2 多字段分组统计
  • 3.4.3 自定义聚合指标
  • 3.5 小结与课后练习
  • 第4章 NumPy数组操作
  • 4.1 NumPy索引与切片
  • 4.1.1 数组的索引
  • 4.1.2 布尔型索引
  • 4.1.3 花式索引
  • 4.1.4 数组的切片
  • 4.1.5 设置切片步长
  • 4.2 NumPy维数变换
  • 4.2.1 reshape()函数
  • 4.2.2 shape()函数
  • 4.2.3 resize()函数
  • 4.2.4 ravel()函数
  • 4.2.5 flatten()函数
  • 4.3 NumPy广播机制
  • 4.3.1 广播
  • 4.3.2 广播机制
  • 4.3.3 广播机制变化过程
  • 4.3.4 广播不兼容
  • 4.4 NumPy矩阵运算
  • 4.4.1 矩阵概述
  • 4.4.2 矩阵的乘法
  • 4.4.3 矩阵的内积
  • 4.4.4 矩阵的外积
  • 4.5 小结与课后练习
  • 第5章 Pandas数据清洗
  • 5.1 重复值检测与处理
  • 5.1.1 重复值的检测
  • 5.1.2 重复值的处理
  • 5.2 缺失值检测与处理
  • 5.2.1 缺失值的检测
  • 5.2.2 缺失值的处理
  • 5.3 异常值检测与处理
  • 5.3.1 异常值的检测
  • 5.3.2 异常值的处理
  • 5.4 金融数据的处理实战
  • 5.4.1 读取上证指数数据
  • 5.4.2 提取特定日期数据
  • 5.4.3 填充非交易日数据
  • 5.5 小结与课后练习
  • 第6章 Matplotlib数据可视化
  • 6.1 图形参数设置
  • 6.1.1 设置图形线条
  • 6.1.2 设置图形坐标轴
  • 6.1.3 设置图形图例
  • 6.2 绘图参数文件及主要函数
  • 6.2.1 修改绘图参数文件
  • 6.2.2 主要绘图函数简介
  • 6.2.3 绘图函数应用案例——分析某企业2020年销售额增长情况
  • 6.3 Matplotlib图形整合
  • 6.3.1 subplot()函数
  • 6.3.2 subplots()函数
  • 6.3.3 图形整合实战——分析2020年某企业产品销售的区域差异性
  • 6.4 Matplotlib可视化案例
  • 6.4.1 商品区域销售额条形图
  • 6.4.2 商品每周利润率折线图
  • 6.4.3 商品利润贡献率饼图
  • 6.5 小结与课后练习
  • 第7章 Scikit-Learn机器学习
  • 7.1 机器学习及其类型
  • 7.1.1 机器学习的特点
  • 7.1.2 机器学习的分类
  • 7.1.3 机器学习的应用
  • 7.2 Sklearn机器学习概述
  • 7.2.1 Sklearn的基本概念
  • 7.2.2 Sklearn的主要算法
  • 7.2.3 选择合适的算法
  • 7.3 Sklearn机器学习流程
  • 7.3.1 获取数据
  • 7.3.2 预处理数据
  • 7.3.3 训练模型
  • 7.3.4 评估模型
  • 7.3.5 优化模型
  • 7.3.6 应用模型
  • 7.4 Sklearn自带的数据集
  • 7.4.1 鸢尾花数据集简介
  • 7.4.2 乳腺癌数据集简介
  • 7.4.3 波士顿房价数据集简介
  • 7.4.4 糖尿病数据集简介
  • 7.4.5 手写数字数据集简介
  • 7.4.6 红酒数据集简介
  • 7.5 小结与课后练习
  • 第8章 监督式机器学习
  • 8.1 线性回归及其案例
  • 8.1.1 线性回归简介
  • 8.1.2 线性回归的建模
  • 8.1.3 汽车价格的预测
  • 8.2 逻辑回归及其案例
  • 8.2.1 逻辑回归简介
  • 8.2.2 逻辑回归的建模
  • 8.2.3 客户收入的预测
  • 8.3 Lasso回归与Ridge回归
  • 8.3.1 Lasso回归及案例
  • 8.3.2 Ridge回归及案例
  • 8.3.3 两种回归的比较
  • 8.4 决策树及其案例
  • 8.4.1 决策树简介
  • 8.4.2 决策树的建模
  • 8.4.3 蘑菇类型的预测
  • 8.5 K近邻算法及其案例
  • 8.5.1 K近邻算法简介
  • 8.5.2 K近邻算法的建模
  • 8.5.3 乳腺癌患者的分类
  • 8.6 支持向量机及其案例
  • 8.6.1 支持向量机简介
  • 8.6.2 支持向量机的建模
  • 8.6.3 乳腺癌患者的分类
  • 8.7 小结与课后练习
  • 第9章 无监督式机器学习
  • 9.1 聚类分析及其案例
  • 9.1.1 K均值聚类算法及案例
  • 9.1.2 使用手肘法判断聚类数
  • 9.1.3 轮廓系数法判断聚类数
  • 9.2 因子分析及其案例
  • 9.2.1 因子分析概述
  • 9.2.2 因子分析的建模
  • 9.2.3 地区竞争力的因子分析
  • 9.3 主成分分析及其案例
  • 9.3.1 主成分分析概述
  • 9.3.2 主成分分析的建模
  • 9.3.3 乳腺癌患者的主成分分析
  • 9.4 关联分析及其案例
  • 9.4.1 关联分析概述
  • 9.4.2 关联分析的建模
  • 9.4.3 电商商品购物篮分析
  • 9.5 离群点检测及其案例
  • 9.5.1 离群点检测概述
  • 9.5.2 椭圆模型拟合及案例
  • 9.5.3 局部离群因子及案例
  • 9.6 双聚类分析及其案例
  • 9.6.1 双聚类分析概述
  • 9.6.2 联合谱聚类及案例
  • 9.6.3 谱双聚类及案例
  • 9.7 小结与课后练习
  • 第10章 模型评估与调优
  • 10.1 机器学习的挑战
  • 10.1.1 训练样本的大小
  • 10.1.2 数据的不平衡
  • 10.1.3 异常值的处理
  • 10.1.4 模型的过拟合
  • 10.1.5 特征的选择
  • 10.2 模型的评估方法
  • 10.2.1 混淆矩阵及案例
  • 10.2.2 模型评估指标及案例
  • 10.2.3 ROC曲线及案例
  • 10.2.4 AUC及案例
  • 10.2.5 R平方及案例
  • 10.2.6 残差及案例
  • 10.3 模型的调优方法
  • 10.3.1 交叉验证及案例
  • 10.3.2 网格搜索及案例
  • 10.3.3 随机搜索及案例
  • 10.4 小结与课后练习
  • 第11章 Python中文文本分析
  • 11.1 中文结巴分词
  • 11.1.1 文本分词模式
  • 11.1.2 自定义停用词
  • 11.2 中文关键词提取
  • 11.2.1 TF-IDF算法
  • 11.2.2 TextRank算法
  • 11.3 中文词向量生成
  • 11.3.1 训练词向量模型
  • 11.3.2 计算文本词向量
  • 11.4 中文情感分析
  • 11.4.1 文本情感建模
  • 11.4.2 文本情感预测
  • 11.5 小结与课后练习
  • 附录A Python 3.10.0及第三方库安装
  • 附录B Python常用第三方工具包简介
  • B.1 数据分析类包
  • B.2 数据可视化类包
  • B.3 机器学习类包
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。