计算机
类型
可以朗读
语音朗读
74千字
字数
2024-05-01
发行日期
展开全部
主编推荐语
系统介绍如何学习和使用Scrapy框架开发网络爬虫应用。
内容简介
本书主要内容包括:使用Python开发网络爬虫,识别网页的编码,结构化信息的提取,Scrapy爬虫的示例使用,ScrapyPlaywright抓取动态JS网站,将抓取的数据保存到数据库,部署、调度和运行Scrapy爬虫等。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 网络爬虫快速入门
- 1.1 各种网络爬虫
- 1.1.1 通用爬虫
- 1.1.2 定向爬虫
- 1.2 网络爬虫基本技术
- 1.3 Windows命令行
- 1.4 上手Scrapy网络爬虫开发
- 1.5 本章小结
- 第2章 Python开发快速入门
- 2.1 变量
- 2.2 注释
- 2.3 简单数据类型
- 2.3.1 数值
- 2.3.2 字符串
- 2.3.3 数组
- 2.4 字面值
- 2.5 控制流
- 2.5.1 if语句
- 2.5.2 循环
- 2.6 列表
- 2.7 元组
- 2.8 集合
- 2.9 字典
- 2.10 函数
- 2.11 模块
- 2.12 检查字符串是否包含子字符串
- 2.13 面向对象编程
- 2.14 泛型
- 2.15 日志记录
- 2.16 数据库
- 2.17 本章小结
- 第3章 使用Python开发网络爬虫
- 3.1 使用BeautifulSoup实现定向采集
- 3.2 URL基础
- 3.2.1 URI
- 3.2.2 解析相对地址
- 3.2.3 DNS解析
- 3.3 网络爬虫抓取原理
- 3.4 爬虫架构
- 3.4.1 基本架构
- 3.4.2 分布式爬虫架构
- 3.4.3 垂直爬虫架构
- 3.5 下载网页
- 3.5.1 HTTP
- 3.5.2 HTML文档
- 3.5.3 使用curl命令下载网络资源
- 3.5.4 使用wget命令下载网页
- 3.5.5 下载静态网页
- 3.5.6 使用Selenium下载动态内容
- 3.5.7 重试
- 3.6 下载图片
- 3.7 网络爬虫的遍历与实现
- 3.8 robots协议
- 3.9 连接池
- 3.10 URL地址查新
- 3.10.1 Redis数据库
- 3.10.2 布隆过滤器
- 3.11 抓取RSS
- 3.12 网页更新
- 3.13 进度条
- 3.14 垂直行业抓取
- 3.15 抓取限制的应对方法
- 3.15.1 模拟浏览器访问
- 3.15.2 使用代理IP
- 3.15.3 抓取需要登录的网页
- 3.16 保存信息
- 3.16.1 SQLite数据库
- 3.16.2 MySQL数据库
- 3.16.3 MongoDB数据库
- 3.16.4 存入Elasticsearch搜索引擎
- 3.17 本章小结
- 第4章 从互联网提取信息
- 4.1 识别网页的编码
- 4.1.1 二进制流的编码
- 4.1.2 识别编码的整体流程
- 4.2 正则表达式
- 4.3 结构化信息的提取
- 4.3.1 解析JSON
- 4.3.2 解析XML
- 4.3.3 XML接口
- 4.3.4 lxml处理网页
- 4.3.5 使用XPath提取信息
- 4.3.6 在Chrome浏览器中查找Selenium WebDriver的XPath
- 4.3.7 CSS选择器
- 4.3.8 使用Parsel
- 4.3.9 提取文本
- 4.3.10 网页正文提取
- 4.4 从文件提取信息
- 4.5 本章小结
- 第5章 使用Scrapy开发爬虫
- 5.1 一个示例爬虫的演练
- 5.2 Scrapy Playwright指南:渲染和抓取动态JS网站
- 5.3 将抓取的数据保存到SQLite数据库
- 5.4 将抓取的数据保存到MySQL数据库
- 5.5 将抓取的数据保存到Postgres数据库
- 5.6 Scrapyd:部署、调度和运行Scrapy爬虫
- 5.7 Scrapy Cloud托管爬虫
- 5.8 Twisted框架
- 5.9 本章小结
- 第6章 分布式爬虫开发
- 6.1 简单的Celery任务
- 6.2 从任务进行分布式抓取
- 6.3 本章小结
- 第7章 开发网络爬虫用户界面
- 7.1 Tkinter简介
- 7.2 网络爬虫图形用户界面
- 7.3 本章小结
- 第8章 案例分析
- 8.1 影视采集器
- 8.2 暗网爬虫
- 8.3 本章小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。