展开全部

主编推荐语

系统介绍如何学习和使用Scrapy框架开发网络爬虫应用。

内容简介

本书主要内容包括:使用Python开发网络爬虫,识别网页的编码,结构化信息的提取,Scrapy爬虫的示例使用,ScrapyPlaywright抓取动态JS网站,将抓取的数据保存到数据库,部署、调度和运行Scrapy爬虫等。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1章 网络爬虫快速入门
  • 1.1 各种网络爬虫
  • 1.1.1 通用爬虫
  • 1.1.2 定向爬虫
  • 1.2 网络爬虫基本技术
  • 1.3 Windows命令行
  • 1.4 上手Scrapy网络爬虫开发
  • 1.5 本章小结
  • 第2章 Python开发快速入门
  • 2.1 变量
  • 2.2 注释
  • 2.3 简单数据类型
  • 2.3.1 数值
  • 2.3.2 字符串
  • 2.3.3 数组
  • 2.4 字面值
  • 2.5 控制流
  • 2.5.1 if语句
  • 2.5.2 循环
  • 2.6 列表
  • 2.7 元组
  • 2.8 集合
  • 2.9 字典
  • 2.10 函数
  • 2.11 模块
  • 2.12 检查字符串是否包含子字符串
  • 2.13 面向对象编程
  • 2.14 泛型
  • 2.15 日志记录
  • 2.16 数据库
  • 2.17 本章小结
  • 第3章 使用Python开发网络爬虫
  • 3.1 使用BeautifulSoup实现定向采集
  • 3.2 URL基础
  • 3.2.1 URI
  • 3.2.2 解析相对地址
  • 3.2.3 DNS解析
  • 3.3 网络爬虫抓取原理
  • 3.4 爬虫架构
  • 3.4.1 基本架构
  • 3.4.2 分布式爬虫架构
  • 3.4.3 垂直爬虫架构
  • 3.5 下载网页
  • 3.5.1 HTTP
  • 3.5.2 HTML文档
  • 3.5.3 使用curl命令下载网络资源
  • 3.5.4 使用wget命令下载网页
  • 3.5.5 下载静态网页
  • 3.5.6 使用Selenium下载动态内容
  • 3.5.7 重试
  • 3.6 下载图片
  • 3.7 网络爬虫的遍历与实现
  • 3.8 robots协议
  • 3.9 连接池
  • 3.10 URL地址查新
  • 3.10.1 Redis数据库
  • 3.10.2 布隆过滤器
  • 3.11 抓取RSS
  • 3.12 网页更新
  • 3.13 进度条
  • 3.14 垂直行业抓取
  • 3.15 抓取限制的应对方法
  • 3.15.1 模拟浏览器访问
  • 3.15.2 使用代理IP
  • 3.15.3 抓取需要登录的网页
  • 3.16 保存信息
  • 3.16.1 SQLite数据库
  • 3.16.2 MySQL数据库
  • 3.16.3 MongoDB数据库
  • 3.16.4 存入Elasticsearch搜索引擎
  • 3.17 本章小结
  • 第4章 从互联网提取信息
  • 4.1 识别网页的编码
  • 4.1.1 二进制流的编码
  • 4.1.2 识别编码的整体流程
  • 4.2 正则表达式
  • 4.3 结构化信息的提取
  • 4.3.1 解析JSON
  • 4.3.2 解析XML
  • 4.3.3 XML接口
  • 4.3.4 lxml处理网页
  • 4.3.5 使用XPath提取信息
  • 4.3.6 在Chrome浏览器中查找Selenium WebDriver的XPath
  • 4.3.7 CSS选择器
  • 4.3.8 使用Parsel
  • 4.3.9 提取文本
  • 4.3.10 网页正文提取
  • 4.4 从文件提取信息
  • 4.5 本章小结
  • 第5章 使用Scrapy开发爬虫
  • 5.1 一个示例爬虫的演练
  • 5.2 Scrapy Playwright指南:渲染和抓取动态JS网站
  • 5.3 将抓取的数据保存到SQLite数据库
  • 5.4 将抓取的数据保存到MySQL数据库
  • 5.5 将抓取的数据保存到Postgres数据库
  • 5.6 Scrapyd:部署、调度和运行Scrapy爬虫
  • 5.7 Scrapy Cloud托管爬虫
  • 5.8 Twisted框架
  • 5.9 本章小结
  • 第6章 分布式爬虫开发
  • 6.1 简单的Celery任务
  • 6.2 从任务进行分布式抓取
  • 6.3 本章小结
  • 第7章 开发网络爬虫用户界面
  • 7.1 Tkinter简介
  • 7.2 网络爬虫图形用户界面
  • 7.3 本章小结
  • 第8章 案例分析
  • 8.1 影视采集器
  • 8.2 暗网爬虫
  • 8.3 本章小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。