主编推荐语
一本通过实战教初学者学习爬取数据、清洗和组织数据进行分析和可视化的Python读物。
内容简介
书中案例均经过实战检验,笔者在实践过程中深感采集数据、清洗和组织数据的重要性,作为一名数据行业的“码农”,数据就是沃土,没有数据,我们将无田可耕。
本书共13章,包括6个核心主题,其一是Python基础入门,包括环境配置、基本操作、数据类型、语句和函数;其二是Python爬虫的构建,包括网页结构解析、爬虫流程设计、代码优化、爬虫效率优化、无线端的数据采集、容错处理、反防爬虫、表单交互和模拟页面点击;其三是Python数据库应用,包括MongoDB、MySQL 在Python中的连接与应用;其四是数据清洗和组织,包括NumPy数组知识,以及pandas数据的读写、分组、变形,缺失值、异常值和重复值处理,时序数据处理和正则表达式的使用等;其五是综合应用实例,帮助读者贯穿爬虫、数据清洗与组织的过程;最后是数据可视化,包括matplotlib和pyecharts两个库的使用,涉及饼图、柱形图、线图、词云图等图形,帮助读者进入可视化的殿堂。
本书以实战为主,适合Python初学者及高等院校相关专业的学生阅读,也适合Python培训机构作为实验教材。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 Python语言基础
- 1.1 安装Python环境
- 1.1.1 Python 3.6.2安装与配置
- 1.1.2 使用IDE工具——PyCharm
- 1.1.3 使用IDE工具——Anaconda
- 1.2 Python操作入门
- 1.2.1 编写第一个Python代码
- 1.2.2 Python基本操作
- 1.2.3 变量
- 1.3 Python数据类型
- 1.3.1 数字
- 1.3.2 字符串
- 1.3.3 列表
- 1.3.4 元组
- 1.3.5 集合
- 1.3.6 字典
- 1.4 Python语句与函数
- 1.4.1 条件语句
- 1.4.2 循环语句
- 1.4.3 函数
- 1.5 习题
- 一、选择题
- 二、判断题
- 三、填空题
- 四、实操题
- 第2章 数据采集的基本知识
- 2.1 关于爬虫的合法性
- 2.2 了解网页
- 2.2.1 认识网页结构
- 2.2.2 写一个简单的HTML
- 2.3 使用requests库请求网站
- 2.3.1 安装requests库
- 2.3.2 爬虫的基本原理
- 2.3.3 使用GET方式抓取数据
- 2.3.4 使用POST方式抓取数据
- 2.4 使用Beautiful Soup解析网页
- 2.5 清洗和组织数据
- 2.6 爬虫攻防战
- 2.7 关于什么时候存储数据
- 2.8 习题
- 一、选择题
- 二、判断题
- 三、应用题
- 第3章 用API爬取天气预报数据
- 3.1 注册免费API和阅读技术文档
- 3.2 获取API数据
- 3.3 存储数据到MongoDB
- 3.3.1 下载并安装MongoDB
- 3.3.2 在PyCharm中安装Mongo Plugin
- 3.3.3 将数据存入MongoDB中
- 3.4 MongoDB数据库查询
- 3.5 习题
- 一、选择题
- 二、判断题
- 第4章 大型爬虫案例:抓取某电商网站的商品数据
- 4.1 观察页面特征和解析数据
- 4.2 工作流程分析
- 4.3 构建类目树
- 4.4 获取景点产品列表
- 4.5 代码优化
- 4.6 爬虫效率优化
- 4.7 容错处理
- 4.8 习题
- 一、判断题
- 二、应用题
- 第5章 采集手机App数据
- 5.1 模拟器及抓包环境配置
- 5.2 App数据抓包
- 5.3 手机App数据的采集
- 5.4 习题
- 一、选择题
- 二、判断题
- 三、应用题
- 第6章 Scrapy爬虫
- 6.1 Scrapy简介
- 6.2 安装Scrapy
- 6.3 案例:用Scrapy抓取股票行情
- 6.4 习题
- 一、选择题
- 二、判断题
- 三、应用题
- 第7章 Selenium爬虫
- 7.1 Selenium简介
- 7.2 安装Selenium
- 7.3 Selenium定位及操作元素
- 7.4 案例:用Selenium抓取某电商网站数据
- 7.5 习题
- 一、选择题
- 二、判断题
- 三、应用题
- 第8章 爬虫案例集锦
- 8.1 采集外卖平台数据
- 8.1.1 采集目标
- 8.1.2 采集代码
- 8.2 采集内容平台数据
- 8.2.1 采集目标
- 8.2.2 采集代码
- 8.3 采集招聘平台数据
- 8.3.1 采集目标
- 8.3.2 采集代码
- 8.4 采集知识付费平台数据
- 8.4.1 采集目标
- 8.4.2 采集代码
- 第9章 数据库连接和查询
- 9.1 使用PyMySQL
- 9.1.1 连接数据库
- 9.1.2 案例:某电商网站女装行业TOP100销量数据
- 9.2 使用SQLAlchemy
- 9.2.1 SQLAlchemy基本介绍
- 9.2.2 SQLAlchemy基本语法
- 9.3 MongoDB
- 9.3.1 MongoDB基本语法
- 9.3.2 案例:在某电商网站搜索“连衣裙”的商品数据
- 9.4 习题
- 一、选择题
- 二、判断题
- 第10章 NumPy数组操作
- 10.1 NumPy简介
- 10.2 一维数组
- 10.2.1 数组与列表的异同
- 10.2.2 数组的创建
- 10.3 多维数组
- 10.3.1 多维数组的高效性能
- 10.3.2 多维数组的索引与切片
- 10.3.3 多维数组的属性和方法
- 10.4 数组的运算
- 10.5 习题
- 一、选择题
- 二、判断题
- 三、实操题
- 第11章 pandas数据清洗
- 11.1 数据读写、选择、整理和描述
- 11.1.1 从CSV中读取数据
- 11.1.2 向CSV中写入数据
- 11.1.3 数据选择
- 11.1.4 数据整理
- 11.1.5 数据描述
- 11.2 数据分组、分割、合并和变形
- 11.2.1 数据分组
- 11.2.2 数据分割
- 11.2.3 数据合并
- 11.2.4 数据变形
- 11.2.5 案例:旅游数据的分析与变形
- 11.3 缺失值、异常值和重复值处理
- 11.3.1 缺失值处理
- 11.3.2 检测和过滤异常值
- 11.3.3 移除重复值
- 11.3.4 案例:旅游数据值的检查与处理
- 11.4 时序数据处理
- 11.4.1 日期/时间数据转换
- 11.4.2 时序数据基础操作
- 11.4.3 案例:天气预报数据分析与处理
- 11.5 数据类型转换
- 11.6 正则表达式
- 11.6.1 元字符与限定符
- 11.6.2 案例:用正则表达式提取网页文本信息
- 11.7 习题
- 一、选择题
- 二、判断题
- 三、应用题
- 第12章 综合应用实例
- 12.1 按性价比给用户推荐旅游产品
- 12.1.1 数据采集
- 12.1.2 数据清洗、建模
- 12.2 通过热力图分析为用户提供出行建议
- 12.2.1 某旅游网站热门景点爬虫代码
- 12.2.2 提取CSV文件中经纬度和销量信息
- 12.2.3 创建景点门票销量热力图HTML文件
- 第13章 数据可视化
- 13.1 应用matplotlib画图
- 13.1.1 画出各省份平均价格、各省份平均成交量柱状图
- 13.1.2 画出各省份平均成交量折线图、柱状图、箱形图和饼图
- 13.1.3 画出价格与成交量的散点图
- 13.2 应用pyecharts画图
- 13.2.1 Echarts简介
- 13.2.2 pyecharts简介
- 13.2.3 初识pyecharts,玫瑰相送
- 13.2.4 pyecharts基本语法
- 13.2.5 基于商业分析的pyecharts图表绘制
- 13.2.6 使用pyecharts绘制其他图表
- 13.2.7 pyecharts和Jupyter
- 13.3 习题
- 一、选择题
- 二、判断题
- 三、实操题
- 四、应用题
- 专业服务
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。