互联网
类型
可以朗读
语音朗读
168千字
字数
2023-07-01
发行日期
展开全部
主编推荐语
系统构建“大数据”知识体系。
内容简介
为了适应数字经济时代的新发展趋势,培养新时代大数据专业人才,编者通过总结多年的教学经验,借鉴国内外相关领域的教学优势,详细剖析大数据采集、预处理与可视化的基础理论、关键技术、相关工具和应用案例,进而编成本书。
本书是集理论与实践于一体的应用型教材。全书共7章,包括大数据概述、Python程序设计、大数据采集、大数据预处理技术、Excel数据获取与预处理、Python数据预处理、数据可视化技术。
本书在编写中着重介绍基本原理,同时突出工程应用,并以清晰、容易理解的方式展现大数据采集、预处理与可视化的基础知识、基本任务、常用方法、实用场景和主要流程,力图做到基本概念准确、阐述条理清晰、主体内容精练、重点难点突出、理论联系实际。
此外,本书还将反映相关领域新技术的发展情况。本书可作为计算机、人工智能、大数据、电子商务、电气、电子、统计学、会计学等相关专业的大数据技术类课程的教材,也可供相关领域的科技人员参考使用,还可作为数据分析及应用类认证培训课程用书。
目录
- 版权信息
- 内容提要
- 推荐序
- 前言
- 第1章 大数据概述
- 1.1 大数据时代
- 1.2 大数据的相关概念及特征
- 1.2.1 大数据的概念
- 1.2.2 大数据的发展历程
- 1.2.3 大数据的特征
- 1.2.4 大数据的作用
- 1.2.5 大数据的应用领域
- 1.2.6 大数据的关键技术
- 1.3 大数据系统简介
- 1.3.1 Hadoop生态系统
- 1.3.2 Spark生态系统
- 1.4 大数据思维
- 1.4.1 传统思维方式
- 1.4.2 大数据思维方式
- 1.5 大数据伦理
- 1.5.1 大数据伦理的由来
- 1.5.2 大数据的伦理问题
- 1.5.3 大数据的伦理原则
- 1.6 大数据安全
- 1.6.1 数据全生命周期安全
- 1.6.2 大数据安全防护技术
- 1.7 本章小结
- 1.8 习题
- 第2章 Python程序设计
- 2.1 Python的安装与运行
- 2.1.1 Python的特点
- 2.1.2 Python的下载与安装
- 2.1.3 Python程序的运行
- 2.1.4 第三方软件包的安装
- 2.1.5 Python编程规范
- 2.2 数据类型与运算符
- 2.2.1 数字和字符串
- 2.2.2 列表和元组
- 2.2.3 字典和集合
- 2.2.4 运算符
- 2.3 程序控制结构
- 2.3.1 程序流程图
- 2.3.2 顺序结构
- 2.3.3 选择结构
- 2.3.4 循环结构
- 2.4 函数与模块
- 2.4.1 函数的使用
- 2.4.2 函数的参数传递
- 2.4.3 全局变量与局部变量
- 2.4.4 匿名函数
- 2.4.5 模块
- 2.5 文件
- 2.5.1 文件的打开与关闭
- 2.5.2 文件的读取与写入
- 2.5.3 文件的定位
- 2.6 本章小结
- 2.7 习题
- 第3章 大数据采集
- 3.1 大数据采集概述
- 3.1.1 大数据采集的概念
- 3.1.2 大数据采集的数据源
- 3.1.3 大数据采集方法
- 3.1.4 大数据采集平台
- 3.2 网络爬虫技术
- 3.2.1 网络爬虫概述
- 3.2.2 常用网络爬虫方法
- 3.2.3 网页数据采集的实现
- 3.2.4 常用网络爬虫工具
- 3.2.5 电影评论爬取
- 3.3 数据抽取技术
- 3.3.1 数据抽取概述
- 3.3.2 Kettle简介与其安装
- 3.3.3 文本数据抽取
- 3.3.4 网页数据抽取
- 3.4 案例:网络租房信息采集
- 3.4.1 网络爬虫采集数据
- 3.4.2 抽取租房信息
- 3.5 本章小结
- 3.6 习题
- 第4章 大数据预处理技术
- 4.1 数据预处理概述
- 4.1.1 数据质量
- 4.1.2 数据预处理的主要任务
- 4.2 数据清洗
- 4.2.1 缺失值处理方法
- 4.2.2 噪声数据处理方法
- 4.2.3 冗余数据处理方法
- 4.2.4 数据格式与内容处理方法
- 4.3 数据集成
- 4.3.1 实体识别问题
- 4.3.2 冗余问题
- 4.3.3 数据值冲突的检测与处理
- 4.4 数据变换
- 4.4.1 数据规范化
- 4.4.2 通过离散化变换数据
- 4.5 数据归约
- 4.5.1 过滤法
- 4.5.2 包装法
- 4.5.3 嵌入法
- 4.6 数据脱敏
- 4.6.1 数据脱敏类型
- 4.6.2 数据脱敏方法
- 4.7 案例:汽车行驶工况数据预处理
- 4.7.1 案例背景
- 4.7.2 数据描述
- 4.7.3 数据预处理
- 4.8 本章小结
- 4.9 习题
- 第5章 Excel数据获取与预处理
- 5.1 Excel数据获取
- 5.1.1 获取文本数据
- 5.1.2 获取网站数据
- 5.1.3 获取数据库中的数据
- 5.2 Excel数据清洗与转换
- 5.2.1 常用数据分析函数
- 5.2.2 删除重复行
- 5.2.3 文本查找与替换
- 5.2.4 字符串截取
- 5.2.5 数据的转置
- 5.2.6 数据的查询和引用
- 5.2.7 字母与数字的转换
- 5.3 Excel数据抽取与合并
- 5.3.1 值的抽取
- 5.3.2 数据合并
- 5.3.3 字段合并
- 5.4 案例:房价行情的对比分析
- 5.4.1 数据获取
- 5.4.2 数据预处理与分析
- 5.5 本章小结
- 5.6 习题
- 第6章 Python数据预处理
- 6.1 Python数据预处理基础
- 6.1.1 科学计算库NumPy
- 6.1.2 数据分析库pandas
- 6.2 数据的分组、分割、合并和变形
- 6.2.1 数据分组
- 6.2.2 数据分割
- 6.2.3 数据合并
- 6.2.4 数据变形
- 6.3 缺失值、异常值和重复值处理
- 6.3.1 缺失值处理
- 6.3.2 异常值处理
- 6.3.3 重复值处理
- 6.4 时间序列数据处理
- 6.4.1 时间序列的基本操作
- 6.4.2 固定频率的时间序列
- 6.4.3 时间周期及其计算
- 6.5 文本数据分析
- 6.5.1 字符串处理方法
- 6.5.2 文本数据分析工具
- 6.5.3 正则表达式
- 6.5.4 文本预处理
- 6.6 案例:IMDb5000电影数据预处理
- 6.6.1 数据分析及代码实现
- 6.6.2 完整代码
- 6.7 本章小结
- 6.8 习题
- 第7章 数据可视化技术
- 7.1 数据可视化概述
- 7.1.1 数据可视化的定义
- 7.1.2 数据可视化的发展历程
- 7.1.3 数据可视化的作用
- 7.2 数据可视化的理论基础
- 7.2.1 数据可视化的流程
- 7.2.2 数据可视化的设计要素
- 7.2.3 数据可视化的基础图表
- 7.2.4 数据可视化的常见工具
- 7.3 Python数据可视化方法
- 7.3.1 Matplotlib绘制基础图表
- 7.3.2 seaborn绘制统计图
- 7.3.3 wordcloud绘制词云图
- 7.3.4 NetworkX绘制网络图
- 7.3.5 案例:重庆公开庭审数据可视化
- 7.4 pyecharts数据可视化方法
- 7.4.1 pyecharts简介
- 7.4.2 pyecharts应用
- 7.4.3 案例:2020年东京奥运会奖牌看板
- 7.5 本章小结
- 7.6 习题
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。