可以朗读
语音朗读
99千字
字数
2023-10-01
发行日期
展开全部
主编推荐语
本书以任务为导向,较为全面地介绍了不同场景下Python爬取网络数据的方法。
内容简介
全书共分为7个项目。
第1个项目介绍了爬虫与反爬虫的基本概念,以及Python爬虫环境的配置;
第2个项目介绍了爬取过程中涉及的网页前端基础知识;
第3个项目介绍了在静态网页中爬取数据的过程;
第4个项目介绍了在动态网页中爬取数据的过程;
第5个项目介绍了对登录后才能访问的网页进行模拟登录的方法;
第6个项目介绍了爬取PC客户端、App的数据的方法;
第7个项目介绍了使用Scrapy爬虫框架爬取数据的过程。
本书可以作为大数据技术爱好者的自学用书,也可作为高校大数据技术类专业的教材。
目录
- 版权信息
- 内容提要
- 大数据技术精品系列教材专家委员会
- 序
- 前言
- 项目1 了解爬虫与Python爬虫环境
- 项目背景
- 学习目标
- 思维导图
- 任务1.1 认识爬虫
- 任务1.2 认识反爬虫
- 任务1.3 配置Python爬虫环境
- 小结
- 实训
- 思考题
- 课后习题
- 项目2 爬虫基础知识准备
- 项目背景
- 学习目标
- 思维导图
- 任务2.1 了解网页基础
- 任务2.2 认识HTTP
- 小结
- 实训
- 思考题
- 课后习题
- 项目3 简单静态网页爬取——获取某企业官网基本信息
- 项目背景
- 学习目标
- 思维导图
- 任务3.1 实现HTTP请求
- 任务3.2 解析网页
- 任务3.3 存储数据
- 小结
- 实训
- 思考题
- 课后习题
- 项目4 爬取动态网页——获取图书基本信息
- 项目背景
- 学习目标
- 思维导图
- 任务4.1 使用逆向分析爬取动态网页
- 任务4.2 使用Selenium库爬取动态网页
- 任务4.3 存储数据至MongoDB数据库
- 小结
- 实训
- 思考题
- 课后习题
- 项目5 模拟登录——登录某企业官网
- 项目背景
- 学习目标
- 思维导图
- 任务5.1 使用表单登录方法实现模拟登录
- 任务5.2 使用Cookie登录方法实现模拟登录
- 小结
- 实训
- 思考题
- 课后习题
- 项目6 终端协议分析——爬取某音乐PC客户端和App客户端数据
- 项目背景
- 学习目标
- 思维导图
- 任务6.1 分析PC客户端抓包
- 任务6.2 分析App客户端抓包
- 小结
- 实训
- 思考题
- 课后习题
- 项目7 使用Scrapy爬虫——爬取某企业官网新闻动态
- 项目背景
- 学习目标
- 思维导图
- 任务7.1 认识Scrapy
- 任务7.2 通过Scrapy爬取文本信息
- 任务7.3 定制中间件
- 小结
- 实训
- 思考题
- 课后习题
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。