展开全部

主编推荐语

系统构建“大数据”知识体系。

内容简介

为了适应数字经济时代的新发展趋势,培养新时代大数据专业人才,编者通过总结多年的教学经验,借鉴国内外相关领域的教学优势,详细剖析大数据采集、预处理与可视化的基础理论、关键技术、相关工具和应用案例,进而编成本书。

本书是集理论与实践于一体的应用型教材。全书共7章,包括大数据概述、Python程序设计、大数据采集、大数据预处理技术、Excel数据获取与预处理、Python数据预处理、数据可视化技术。

本书在编写中着重介绍基本原理,同时突出工程应用,并以清晰、容易理解的方式展现大数据采集、预处理与可视化的基础知识、基本任务、常用方法、实用场景和主要流程,力图做到基本概念准确、阐述条理清晰、主体内容精练、重点难点突出、理论联系实际。

此外,本书还将反映相关领域新技术的发展情况。本书可作为计算机、人工智能、大数据、电子商务、电气、电子、统计学、会计学等相关专业的大数据技术类课程的教材,也可供相关领域的科技人员参考使用,还可作为数据分析及应用类认证培训课程用书。

目录

  • 版权信息
  • 内容提要
  • 推荐序
  • 前言
  • 第1章 大数据概述
  • 1.1 大数据时代
  • 1.2 大数据的相关概念及特征
  • 1.2.1 大数据的概念
  • 1.2.2 大数据的发展历程
  • 1.2.3 大数据的特征
  • 1.2.4 大数据的作用
  • 1.2.5 大数据的应用领域
  • 1.2.6 大数据的关键技术
  • 1.3 大数据系统简介
  • 1.3.1 Hadoop生态系统
  • 1.3.2 Spark生态系统
  • 1.4 大数据思维
  • 1.4.1 传统思维方式
  • 1.4.2 大数据思维方式
  • 1.5 大数据伦理
  • 1.5.1 大数据伦理的由来
  • 1.5.2 大数据的伦理问题
  • 1.5.3 大数据的伦理原则
  • 1.6 大数据安全
  • 1.6.1 数据全生命周期安全
  • 1.6.2 大数据安全防护技术
  • 1.7 本章小结
  • 1.8 习题
  • 第2章 Python程序设计
  • 2.1 Python的安装与运行
  • 2.1.1 Python的特点
  • 2.1.2 Python的下载与安装
  • 2.1.3 Python程序的运行
  • 2.1.4 第三方软件包的安装
  • 2.1.5 Python编程规范
  • 2.2 数据类型与运算符
  • 2.2.1 数字和字符串
  • 2.2.2 列表和元组
  • 2.2.3 字典和集合
  • 2.2.4 运算符
  • 2.3 程序控制结构
  • 2.3.1 程序流程图
  • 2.3.2 顺序结构
  • 2.3.3 选择结构
  • 2.3.4 循环结构
  • 2.4 函数与模块
  • 2.4.1 函数的使用
  • 2.4.2 函数的参数传递
  • 2.4.3 全局变量与局部变量
  • 2.4.4 匿名函数
  • 2.4.5 模块
  • 2.5 文件
  • 2.5.1 文件的打开与关闭
  • 2.5.2 文件的读取与写入
  • 2.5.3 文件的定位
  • 2.6 本章小结
  • 2.7 习题
  • 第3章 大数据采集
  • 3.1 大数据采集概述
  • 3.1.1 大数据采集的概念
  • 3.1.2 大数据采集的数据源
  • 3.1.3 大数据采集方法
  • 3.1.4 大数据采集平台
  • 3.2 网络爬虫技术
  • 3.2.1 网络爬虫概述
  • 3.2.2 常用网络爬虫方法
  • 3.2.3 网页数据采集的实现
  • 3.2.4 常用网络爬虫工具
  • 3.2.5 电影评论爬取
  • 3.3 数据抽取技术
  • 3.3.1 数据抽取概述
  • 3.3.2 Kettle简介与其安装
  • 3.3.3 文本数据抽取
  • 3.3.4 网页数据抽取
  • 3.4 案例:网络租房信息采集
  • 3.4.1 网络爬虫采集数据
  • 3.4.2 抽取租房信息
  • 3.5 本章小结
  • 3.6 习题
  • 第4章 大数据预处理技术
  • 4.1 数据预处理概述
  • 4.1.1 数据质量
  • 4.1.2 数据预处理的主要任务
  • 4.2 数据清洗
  • 4.2.1 缺失值处理方法
  • 4.2.2 噪声数据处理方法
  • 4.2.3 冗余数据处理方法
  • 4.2.4 数据格式与内容处理方法
  • 4.3 数据集成
  • 4.3.1 实体识别问题
  • 4.3.2 冗余问题
  • 4.3.3 数据值冲突的检测与处理
  • 4.4 数据变换
  • 4.4.1 数据规范化
  • 4.4.2 通过离散化变换数据
  • 4.5 数据归约
  • 4.5.1 过滤法
  • 4.5.2 包装法
  • 4.5.3 嵌入法
  • 4.6 数据脱敏
  • 4.6.1 数据脱敏类型
  • 4.6.2 数据脱敏方法
  • 4.7 案例:汽车行驶工况数据预处理
  • 4.7.1 案例背景
  • 4.7.2 数据描述
  • 4.7.3 数据预处理
  • 4.8 本章小结
  • 4.9 习题
  • 第5章 Excel数据获取与预处理
  • 5.1 Excel数据获取
  • 5.1.1 获取文本数据
  • 5.1.2 获取网站数据
  • 5.1.3 获取数据库中的数据
  • 5.2 Excel数据清洗与转换
  • 5.2.1 常用数据分析函数
  • 5.2.2 删除重复行
  • 5.2.3 文本查找与替换
  • 5.2.4 字符串截取
  • 5.2.5 数据的转置
  • 5.2.6 数据的查询和引用
  • 5.2.7 字母与数字的转换
  • 5.3 Excel数据抽取与合并
  • 5.3.1 值的抽取
  • 5.3.2 数据合并
  • 5.3.3 字段合并
  • 5.4 案例:房价行情的对比分析
  • 5.4.1 数据获取
  • 5.4.2 数据预处理与分析
  • 5.5 本章小结
  • 5.6 习题
  • 第6章 Python数据预处理
  • 6.1 Python数据预处理基础
  • 6.1.1 科学计算库NumPy
  • 6.1.2 数据分析库pandas
  • 6.2 数据的分组、分割、合并和变形
  • 6.2.1 数据分组
  • 6.2.2 数据分割
  • 6.2.3 数据合并
  • 6.2.4 数据变形
  • 6.3 缺失值、异常值和重复值处理
  • 6.3.1 缺失值处理
  • 6.3.2 异常值处理
  • 6.3.3 重复值处理
  • 6.4 时间序列数据处理
  • 6.4.1 时间序列的基本操作
  • 6.4.2 固定频率的时间序列
  • 6.4.3 时间周期及其计算
  • 6.5 文本数据分析
  • 6.5.1 字符串处理方法
  • 6.5.2 文本数据分析工具
  • 6.5.3 正则表达式
  • 6.5.4 文本预处理
  • 6.6 案例:IMDb5000电影数据预处理
  • 6.6.1 数据分析及代码实现
  • 6.6.2 完整代码
  • 6.7 本章小结
  • 6.8 习题
  • 第7章 数据可视化技术
  • 7.1 数据可视化概述
  • 7.1.1 数据可视化的定义
  • 7.1.2 数据可视化的发展历程
  • 7.1.3 数据可视化的作用
  • 7.2 数据可视化的理论基础
  • 7.2.1 数据可视化的流程
  • 7.2.2 数据可视化的设计要素
  • 7.2.3 数据可视化的基础图表
  • 7.2.4 数据可视化的常见工具
  • 7.3 Python数据可视化方法
  • 7.3.1 Matplotlib绘制基础图表
  • 7.3.2 seaborn绘制统计图
  • 7.3.3 wordcloud绘制词云图
  • 7.3.4 NetworkX绘制网络图
  • 7.3.5 案例:重庆公开庭审数据可视化
  • 7.4 pyecharts数据可视化方法
  • 7.4.1 pyecharts简介
  • 7.4.2 pyecharts应用
  • 7.4.3 案例:2020年东京奥运会奖牌看板
  • 7.5 本章小结
  • 7.6 习题
  • 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。