互联网
类型
可以朗读
语音朗读
123千字
字数
2024-02-01
发行日期
展开全部
主编推荐语
统地阐述大数据分析处理工作流程中的重要步骤。
内容简介
本书共13个单元,第1单元介绍了大数据分析处理的概念;第2、3单元介绍了大数据分析中科学计算与统计分析的相关知识;第4-7单元介绍了使用Pandas实现数据预处理的方法;第8单元介绍了使用Scikit-learn实现简单的机器学习的方法;第9单元介绍了使用Matplotlib、Seaborn绘制图表的方法;第10-13单元分别介绍了4个大数据分析处理的综合案例。
单元1-9中,每个单元都包含了相关知识部分和任务实现部分,任务实现部分一般包含多个任务的具体实现过程,每个任务后面都有课堂实践,通过完成实践操作,读者可以进一步巩固所学知识。
目录
- 版权信息
- 内容提要
- 前言
- 单元1 大数据分析概述
- 学习目标
- 相关知识
- 1. 大数据分析的概念
- 2. 大数据分析的发展过程
- 3. 大数据分析的应用场景
- 4. 大数据分析流程
- 5. 传统的统计分析软件
- 6. 大数据分析编程语言
- 7. 大数据可视化分析工具
- 任务实现
- 任务1.1 根据业务需求选择合适的大数据分析技术
- 任务1.2 使用pip和PyCharm完成Python库的管理
- 素养拓展
- 单元小结
- 课后习题
- 单元2 numpy科学计算基础
- 学习目标
- 相关知识
- 1. numpy与ndarray对象
- 2. 创建ndarray数组的函数
- 3. numpy支持的数据类型
- 4. 数组的矢量化运算
- 5. 广播机制
- 6. 数组与标量的算术运算
- 7. numpy通用函数
- 8. numpy数组的统计与排序方法
- 9. numpy的numpy.linalg模块
- 任务实现
- 任务2.1 保存考试成绩——创建一个数组
- 任务2.2 查看考试成绩数据类型——查看数组元素的数据类型
- 任务2.3 对两门课成绩进行相加——实现数组运算
- 任务2.4 对考试成绩进行计算——使用numpy通用函数实现数组计算
- 任务2.5 对考试成绩进行统计与排序——利用numpy数组进行数据处理
- 任务2.6 对多门课成绩进行计算——使用numpy的线性代数模块处理矩阵
- 素养拓展
- 单元小结
- 课后习题
- 单元3 pandas统计分析基础
- 学习目标
- 相关知识
- 1. pandas与pandas的数据结构
- 2. 创建Series和DataFrame的函数
- 3. 索引与切片
- 4. 排序算法与实现排序的方法
- 5. 统计学与统计方法
- 任务实现
- 任务3.1 用不同方式创建Series对象
- 任务3.2 用不同方式创建DataFrame
- 任务3.3 访问和提取随机数据——使用DataFrame进行索引与切片
- 任务3.4 对学生数据进行排序——实现数据排序
- 任务3.5 进行随机数据统计——实现数据统计
- 素养拓展
- 单元小结
- 课后习题
- 单元4 数据读取与写入
- 学习目标
- 相关知识
- 1. 常用的数据文件类型
- 2. 文本文件读取与写入
- 3. Excel文件读取与写入
- 4. 数据库文件读取与写入
- 任务实现
- 任务4.1 读取并存储城市经纬度数据——TXT文件读写
- 任务4.2 读取并存储招聘数据——CSV文件的读写
- 任务4.3 读取并存储用户数据——Excel文件的读写
- 任务4.4 读取商品类别数据并存储账户数据——MySQL读写
- 素养拓展
- 单元小结
- 课后习题
- 单元5 数据质量与数据清洗
- 学习目标
- 相关知识
- 1. 企业数据管理现状
- 2. 数据标准
- 3. 数据质量的定义
- 4. 常用的数据质量检测手段
- 5. 数据质量管理的必要性
- 6. 缺失值
- 7. 重复值
- 8. 异常值
- 任务实现
- 任务5.1 医药销售数据遗漏检查——缺失值处理
- 任务5.2 医药销售数据去重校验——重复值处理
- 任务5.3 医药销售数据异常值排除——异常值处理
- 素养拓展
- 单元小结
- 课后习题
- 单元6 数据合并与数据转换
- 学习目标
- 相关知识
- 1. concat函数
- 2. append方法
- 3. merge函数
- 4. join方法
- 5. combine_first方法
- 6. map方法
- 7. cut函数
- 8. qcut函数
- 任务实现
- 任务6.1 堆叠学生信息和考试成绩数据——实现数据堆叠
- 任务6.2 连接学生信息和考试成绩数据——实现数据连接
- 任务6.3 对学生考试成绩进行等级转换——实现数据映射转换
- 任务6.4 对学生考试成绩进行离散化——实现数据离散化
- 素养拓展
- 单元小结
- 课后习题
- 单元7 数据分组与数据聚合
- 学习目标
- 相关知识
- 1. 数据分组的概念
- 2. groupby方法
- 3. 数据分组的原则和依据
- 4. 数据分组的方法
- 5. 数据聚合的概念
- 6. agg方法和aggregate方法
- 7. apply方法
- 8. transform方法
- 任务实现
- 任务7.1 简单数据表处理——数据分组
- 任务7.2 人员得分表处理——数据聚合
- 素养拓展
- 单元小结
- 课后习题
- 单元8 scikit-learn机器学习
- 学习目标
- 相关知识
- 1. 机器学习的概念
- 2. 机器学习的分类
- 3. 假设空间
- 4. 归纳偏好
- 5. sklearn
- 6. 划分数据集函数
- 7. preprocessing模块
- 8. 标准化和归一化
- 9. 降维
- 10. 线性回归模型
- 11. 逻辑斯谛回归模型
- 12. K-means算法
- 13. 朴素贝叶斯分类
- 14. 支持向量机算法
- 任务实现
- 任务8.1 使用sklearn处理iris数据集——使用sklearn处理数据
- 任务8.2 boston数据集预处理和降维——数据预处理
- 任务8.3 使用boston数据集构建回归模型——回归模型分析与预测
- 任务8.4 使用iris数据集构建分类模型——分类模型分析与预测
- 任务8.5 使用iris数据集构建聚类模型——聚类模型分析与评价
- 素养拓展
- 单元小结
- 课后习题
- 单元9 使用统计图表展示数据
- 学习目标
- 相关知识
- 1. 数据可视化的概念
- 2. 数据可视化的设计过程
- 3. 基本图表类型及使用场景
- 4. pyplot基础语法
- 5. rc参数
- 6. 绘制线图的函数plot
- 7. 绘制柱状图的函数bar
- 8. 绘制直方图的函数hist
- 9. 绘制饼图的函数pie
- 10. 绘制散点图的函数scatter
- 11. 子图的概念
- 12. seaborn
- 任务实现
- 任务9.1 使用线图展示水果销量变化曲线——掌握matplotlib基础语法
- 任务9.2 使用常用图表展示各品牌汽车销售额——绘制常见图表
- 任务9.3 使用子图展示就业率数据——创建子图
- 任务9.4 使用seaborn展示汽车数据的分布与相关性——使用seaborn绘制图表
- 素养拓展
- 单元小结
- 课后习题
- 单元10 某地区电力公司用户付费行为预测
- 项目目标
- 相关背景知识
- 任务实现
- 任务10.1 数据采集和数据描述
- 任务10.2 电力数据预处理
- 任务10.3 模型建立与评估
- 项目总结
- 项目实践
- 单元11 《你好,旧时光》文本挖掘分析
- 项目目标
- 相关背景知识
- 任务实现
- 任务11.1 项目准备
- 任务11.2 文本数据准备与处理
- 任务11.3 文本分词与词云图绘制
- 任务11.4 关系网络探索
- 任务11.5 聚类分析
- 项目总结
- 项目实践
- 单元12 基于大数据可视化的城市通勤特征分析研究
- 项目目标
- 相关背景知识
- 任务实现
- 任务12.1 原始数据预处理
- 任务12.2 词云图的绘制
- 任务12.3 绘制起止点分布连线图
- 任务12.4 绘制早高峰地铁刷卡进出站分布图
- 任务12.5 职住地识别与分析
- 项目总结
- 项目实践
- 单元13 上市公司新闻情感与股票价格的关系
- 项目目标
- 相关背景知识
- 任务实现
- 任务13.1 网络数据爬取
- 任务13.2 中文文本处理
- 任务13.3 使用机器学习算法进行情感分析
- 任务13.4 绘制词云图
- 项目总结
- 项目实践
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。