展开全部

主编推荐语

统地阐述大数据分析处理工作流程中的重要步骤。

内容简介

本书共13个单元,第1单元介绍了大数据分析处理的概念;第2、3单元介绍了大数据分析中科学计算与统计分析的相关知识;第4-7单元介绍了使用Pandas实现数据预处理的方法;第8单元介绍了使用Scikit-learn实现简单的机器学习的方法;第9单元介绍了使用Matplotlib、Seaborn绘制图表的方法;第10-13单元分别介绍了4个大数据分析处理的综合案例。

单元1-9中,每个单元都包含了相关知识部分和任务实现部分,任务实现部分一般包含多个任务的具体实现过程,每个任务后面都有课堂实践,通过完成实践操作,读者可以进一步巩固所学知识。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 单元1 大数据分析概述
  • 学习目标
  • 相关知识
  • 1. 大数据分析的概念
  • 2. 大数据分析的发展过程
  • 3. 大数据分析的应用场景
  • 4. 大数据分析流程
  • 5. 传统的统计分析软件
  • 6. 大数据分析编程语言
  • 7. 大数据可视化分析工具
  • 任务实现
  • 任务1.1 根据业务需求选择合适的大数据分析技术
  • 任务1.2 使用pip和PyCharm完成Python库的管理
  • 素养拓展
  • 单元小结
  • 课后习题
  • 单元2 numpy科学计算基础
  • 学习目标
  • 相关知识
  • 1. numpy与ndarray对象
  • 2. 创建ndarray数组的函数
  • 3. numpy支持的数据类型
  • 4. 数组的矢量化运算
  • 5. 广播机制
  • 6. 数组与标量的算术运算
  • 7. numpy通用函数
  • 8. numpy数组的统计与排序方法
  • 9. numpy的numpy.linalg模块
  • 任务实现
  • 任务2.1 保存考试成绩——创建一个数组
  • 任务2.2 查看考试成绩数据类型——查看数组元素的数据类型
  • 任务2.3 对两门课成绩进行相加——实现数组运算
  • 任务2.4 对考试成绩进行计算——使用numpy通用函数实现数组计算
  • 任务2.5 对考试成绩进行统计与排序——利用numpy数组进行数据处理
  • 任务2.6 对多门课成绩进行计算——使用numpy的线性代数模块处理矩阵
  • 素养拓展
  • 单元小结
  • 课后习题
  • 单元3 pandas统计分析基础
  • 学习目标
  • 相关知识
  • 1. pandas与pandas的数据结构
  • 2. 创建Series和DataFrame的函数
  • 3. 索引与切片
  • 4. 排序算法与实现排序的方法
  • 5. 统计学与统计方法
  • 任务实现
  • 任务3.1 用不同方式创建Series对象
  • 任务3.2 用不同方式创建DataFrame
  • 任务3.3 访问和提取随机数据——使用DataFrame进行索引与切片
  • 任务3.4 对学生数据进行排序——实现数据排序
  • 任务3.5 进行随机数据统计——实现数据统计
  • 素养拓展
  • 单元小结
  • 课后习题
  • 单元4 数据读取与写入
  • 学习目标
  • 相关知识
  • 1. 常用的数据文件类型
  • 2. 文本文件读取与写入
  • 3. Excel文件读取与写入
  • 4. 数据库文件读取与写入
  • 任务实现
  • 任务4.1 读取并存储城市经纬度数据——TXT文件读写
  • 任务4.2 读取并存储招聘数据——CSV文件的读写
  • 任务4.3 读取并存储用户数据——Excel文件的读写
  • 任务4.4 读取商品类别数据并存储账户数据——MySQL读写
  • 素养拓展
  • 单元小结
  • 课后习题
  • 单元5 数据质量与数据清洗
  • 学习目标
  • 相关知识
  • 1. 企业数据管理现状
  • 2. 数据标准
  • 3. 数据质量的定义
  • 4. 常用的数据质量检测手段
  • 5. 数据质量管理的必要性
  • 6. 缺失值
  • 7. 重复值
  • 8. 异常值
  • 任务实现
  • 任务5.1 医药销售数据遗漏检查——缺失值处理
  • 任务5.2 医药销售数据去重校验——重复值处理
  • 任务5.3 医药销售数据异常值排除——异常值处理
  • 素养拓展
  • 单元小结
  • 课后习题
  • 单元6 数据合并与数据转换
  • 学习目标
  • 相关知识
  • 1. concat函数
  • 2. append方法
  • 3. merge函数
  • 4. join方法
  • 5. combine_first方法
  • 6. map方法
  • 7. cut函数
  • 8. qcut函数
  • 任务实现
  • 任务6.1 堆叠学生信息和考试成绩数据——实现数据堆叠
  • 任务6.2 连接学生信息和考试成绩数据——实现数据连接
  • 任务6.3 对学生考试成绩进行等级转换——实现数据映射转换
  • 任务6.4 对学生考试成绩进行离散化——实现数据离散化
  • 素养拓展
  • 单元小结
  • 课后习题
  • 单元7 数据分组与数据聚合
  • 学习目标
  • 相关知识
  • 1. 数据分组的概念
  • 2. groupby方法
  • 3. 数据分组的原则和依据
  • 4. 数据分组的方法
  • 5. 数据聚合的概念
  • 6. agg方法和aggregate方法
  • 7. apply方法
  • 8. transform方法
  • 任务实现
  • 任务7.1 简单数据表处理——数据分组
  • 任务7.2 人员得分表处理——数据聚合
  • 素养拓展
  • 单元小结
  • 课后习题
  • 单元8 scikit-learn机器学习
  • 学习目标
  • 相关知识
  • 1. 机器学习的概念
  • 2. 机器学习的分类
  • 3. 假设空间
  • 4. 归纳偏好
  • 5. sklearn
  • 6. 划分数据集函数
  • 7. preprocessing模块
  • 8. 标准化和归一化
  • 9. 降维
  • 10. 线性回归模型
  • 11. 逻辑斯谛回归模型
  • 12. K-means算法
  • 13. 朴素贝叶斯分类
  • 14. 支持向量机算法
  • 任务实现
  • 任务8.1 使用sklearn处理iris数据集——使用sklearn处理数据
  • 任务8.2 boston数据集预处理和降维——数据预处理
  • 任务8.3 使用boston数据集构建回归模型——回归模型分析与预测
  • 任务8.4 使用iris数据集构建分类模型——分类模型分析与预测
  • 任务8.5 使用iris数据集构建聚类模型——聚类模型分析与评价
  • 素养拓展
  • 单元小结
  • 课后习题
  • 单元9 使用统计图表展示数据
  • 学习目标
  • 相关知识
  • 1. 数据可视化的概念
  • 2. 数据可视化的设计过程
  • 3. 基本图表类型及使用场景
  • 4. pyplot基础语法
  • 5. rc参数
  • 6. 绘制线图的函数plot
  • 7. 绘制柱状图的函数bar
  • 8. 绘制直方图的函数hist
  • 9. 绘制饼图的函数pie
  • 10. 绘制散点图的函数scatter
  • 11. 子图的概念
  • 12. seaborn
  • 任务实现
  • 任务9.1 使用线图展示水果销量变化曲线——掌握matplotlib基础语法
  • 任务9.2 使用常用图表展示各品牌汽车销售额——绘制常见图表
  • 任务9.3 使用子图展示就业率数据——创建子图
  • 任务9.4 使用seaborn展示汽车数据的分布与相关性——使用seaborn绘制图表
  • 素养拓展
  • 单元小结
  • 课后习题
  • 单元10 某地区电力公司用户付费行为预测
  • 项目目标
  • 相关背景知识
  • 任务实现
  • 任务10.1 数据采集和数据描述
  • 任务10.2 电力数据预处理
  • 任务10.3 模型建立与评估
  • 项目总结
  • 项目实践
  • 单元11 《你好,旧时光》文本挖掘分析
  • 项目目标
  • 相关背景知识
  • 任务实现
  • 任务11.1 项目准备
  • 任务11.2 文本数据准备与处理
  • 任务11.3 文本分词与词云图绘制
  • 任务11.4 关系网络探索
  • 任务11.5 聚类分析
  • 项目总结
  • 项目实践
  • 单元12 基于大数据可视化的城市通勤特征分析研究
  • 项目目标
  • 相关背景知识
  • 任务实现
  • 任务12.1 原始数据预处理
  • 任务12.2 词云图的绘制
  • 任务12.3 绘制起止点分布连线图
  • 任务12.4 绘制早高峰地铁刷卡进出站分布图
  • 任务12.5 职住地识别与分析
  • 项目总结
  • 项目实践
  • 单元13 上市公司新闻情感与股票价格的关系
  • 项目目标
  • 相关背景知识
  • 任务实现
  • 任务13.1 网络数据爬取
  • 任务13.2 中文文本处理
  • 任务13.3 使用机器学习算法进行情感分析
  • 任务13.4 绘制词云图
  • 项目总结
  • 项目实践
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。