可以朗读
语音朗读
233千字
字数
2023-07-01
发行日期
展开全部
主编推荐语
本书主要介绍如何使用Python语言进行网络爬虫程序的开发。
内容简介
本书从Python语言的基本特性入手,详细介绍Python网络爬虫开发的多个方面,涉及HTTP、HTML、正则表达式、JavaScript、自然语言处理、数据处理与科学计算等不同领域的内容。
全书共12章,包括基础篇、进阶篇、提高篇和实战篇4个部分。
基础篇包括第1、2、3章,分别为Python基础及网络爬虫、静态网页抓取、数据存储。
进阶篇包括第4、5、6章,分别为JavaScript与动态内容、模拟登录与验证码、爬虫数据的分析与处理。
提高篇包括第7、8、9章,分别为爬虫的灵活性和多样性、Selenium模拟浏览器与网站测试、爬虫框架Scrapy与反爬虫。
实战篇提供了3个实战项目供读者学习参考。
本书内容覆盖网络数据抓取与爬虫编程中的主要知识和前沿技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示爬虫程序编写的核心流程,将理论与实践结合,力求提高读者的网络爬虫实操技能。
目录
- 版权信息
- 内容提要
- 前言
- 基础篇
- 第1章 Python基础及网络爬虫
- 1.1 了解Python语言
- 1.2 配置安装Python开发环境
- 1.3 Python基础知识
- 1.4 互联网、HTTP与HTML
- 1.5 Hello Spider
- 1.6 分析网站
- 章节实训:Python环境的配置与爬虫的运行
- 思考与练习
- 第2章 静态网页抓取
- 2.1 从抓取开始
- 2.2 正则表达式
- 2.3 BeautifulSoup爬虫
- 2.4 XPath与lxml
- 2.5 遍历页面
- 2.6 使用API
- 章节实训:哔哩哔哩直播间信息抓取练习
- 思考与练习
- 第3章 数据存储
- 3.1 Python中的文件
- 3.2 Python中的字符串
- 3.3 Python中的图片
- 3.4 CSV文件
- 3.5 数据库的使用
- 3.6 其他类型的文档
- 章节实训:使用Python 3读写SQLite 3数据库
- 思考与练习
- 进阶篇
- 第4章 JavaScript与动态内容
- 4.1 JavaScript与AJAX技术
- 4.2 抓取AJAX数据
- 4.3 抓取动态内容
- 章节实训:抓取人民邮电出版社热销图书信息
- 思考与练习
- 第5章 模拟登录与验证码
- 5.1 表单
- 5.2 Cookie
- 5.3 模拟登录网站
- 5.4 验证码
- 章节实训:通过Selenium模拟登录Gitee并保存Cookie
- 思考与练习
- 第6章 爬虫数据的分析与处理
- 6.1 Python与文本分析
- 6.2 数据处理与科学计算
- 章节实训:美国新冠疫情每日新增人数的可视化
- 思考与练习
- 提高篇
- 第7章 爬虫的灵活性和多样性
- 7.1 爬虫的灵活性——以微信数据抓取为例
- 7.2 爬虫的多样性
- 7.3 爬虫的部署和管理
- 章节实训:基于PyQuery抓取菜鸟教程
- 思考与练习
- 第8章 Selenium模拟浏览器与网站测试
- 8.1 测试
- 8.2 Python的单元测试
- 8.3 使用Python网络爬虫测试网站
- 8.4 使用Selenium测试
- 章节实训:使用Selenium抓取百度搜索引擎中关于“爬虫”的结果
- 思考与练习
- 第9章 爬虫框架Scrapy与反爬虫
- 9.1 爬虫框架
- 9.2 网站反爬虫
- 章节实训:使用“反反爬虫”策略抓取某日报网头版的标题内容
- 思考与练习
- 实战篇
- 第10章 实战:保存感兴趣的图片
- 10.1 豆瓣网分析与爬虫设计
- 10.2 编写爬虫程序
- 第11章 实战:抓取二手房数据并绘制热力图
- 11.1 数据抓取
- 11.2 绘制热力图
- 第12章 实战:北京大兴国际机场航班出发时间数据抓取
- 12.1 程序设计
- 12.2 爬虫编写
- 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。