科技
类型
可以朗读
语音朗读
272千字
字数
2020-07-01
发行日期
展开全部
主编推荐语
基于Python3.8,详解网络爬虫技术。
内容简介
本书分为8章,内容包括Python的开发环境、爬虫的基础原理和概念、数据解析与存贮、简单爬虫的使用、PyQuery模块、Scrapy框架、Beautiful Soup框架开发出不同的网络爬虫。用实例显示出不同框架的优缺点,供你学习选择。
目录
- 版权信息
- 内容简介
- 前言
- 第1章 Python环境配置
- 1.1 Python简介
- 1.1.1 Python的历史由来
- 1.1.2 Python的现状
- 1.1.3 Python的应用
- 1.2 Python 3.8.0开发环境配置
- 1.2.1 在Windows下安装Python
- 1.2.2 在Windows下安装配置pip
- 1.2.3 在Linux下安装Python
- 1.2.4 在Linux下安装配置pip
- 1.2.5 永远的hello world
- 1.3 本章小结
- 第2章 爬虫基础快速入门
- 2.1 HTTP基本原理
- 2.1.1 URI和URL
- 2.1.2 超文本
- 2.1.3 HTTP和HTTPS
- 2.1.4 HTTP请求过程
- 2.1.5 请求
- 2.1.6 响应
- 2.2 网页基础
- 2.2.1 网页的组成
- 2.2.2 网页的结构
- 2.2.3 节点树及节点间的关系
- 2.2.4 选择器
- 2.3 爬虫的基本原理
- 2.3.1 爬虫概述
- 2.3.2 能抓取什么样的数据
- 2.3.3 JavaScript渲染页面
- 2.4 会话和Cookies
- 2.4.1 静态网页和动态网页
- 2.4.2 无状态HTTP
- 2.4.3 常见误区
- 2.5 代理的基本原理
- 2.5.1 基本原理
- 2.5.2 代理的作用
- 2.5.3 代理分类
- 2.5.4 常见代理设置
- 2.6 本章小结
- 第3章 数据存储与解析
- 3.1 文件存储
- 3.1.1 TXT文件存储
- 3.1.2 JSON文件存储
- 3.1.3 CSV文件存储
- 3.2 关系型数据库存储
- 3.2.1 连接数据库
- 3.2.2 创建表
- 3.2.3 插入数据
- 3.2.4 浏览数据
- 3.2.5 修改数据
- 3.2.6 删除数据
- 3.3 非关系型数据库存储
- 3.3.1 安装数据库
- 3.3.2 MongoDB概念解析
- 3.3.3 创建数据库
- 3.3.4 创建集合
- 3.3.5 插入文档
- 3.3.6 查询集合数据
- 3.3.7 修改记录
- 3.3.8 数据排序
- 3.3.9 删除文档
- 3.4 lxml模块解析数据
- 3.4.1 安装模块
- 3.4.2 XPath常用规则
- 3.4.3 读取文件进行解析
- 3.5 本章小结
- 第4章 Python爬虫常用模块
- 4.1 Python网络爬虫技术核心
- 4.1.1 Python网络爬虫实现原理
- 4.1.2 爬行策略
- 4.1.3 身份识别
- 4.2 Python 3标准库之urllib.request模块
- 4.2.1 urllib.request请求返回网页
- 4.2.2 urllib.request使用代理访问网页
- 4.2.3 urllib.request修改header
- 4.3 Python 3标准库之logging模块
- 4.3.1 简述logging模块
- 4.3.2 自定义模块myLog
- 4.4 re模块(正则表达式)
- 4.4.1 re模块(正则表达式的操作)
- 4.4.2 re模块实战
- 4.5 其他有用模块
- 4.5.1 sys模块(系统参数获取)
- 4.5.2 time模块(获取时间信息)
- 4.6 本章小结
- 第5章 Scrapy爬虫框架
- 5.1 安装Scrapy
- 5.1.1 在Windows下安装Scrapy环境
- 5.1.2 在Linux下安装Scrapy
- 5.1.3 vim编辑器
- 5.2 Scrapy选择器XPath和CSS
- 5.2.1 XPath选择器
- 5.2.2 CSS选择器
- 5.2.3 其他选择器
- 5.3 Scrapy爬虫实战一:今日影视
- 5.3.1 创建Scrapy项目
- 5.3.2 Scrapy文件介绍
- 5.3.3 Scrapy爬虫的编写
- 5.4 Scrapy爬虫实战二:天气预报
- 5.4.1 项目准备
- 5.4.2 创建并编辑Scrapy爬虫
- 5.4.3 数据存储到JSON
- 5.4.4 数据存储到MySQL
- 5.5 Scrapy爬虫实战三:获取代理
- 5.5.1 项目准备
- 5.5.2 创建编辑Scrapy爬虫
- 5.5.3 多个Spider
- 5.5.4 处理Spider数据
- 5.6 Scrapy爬虫实战四:糗事百科
- 5.6.1 目标分析
- 5.6.2 创建编辑Scrapy爬虫
- 5.6.3 Scrapy项目中间件——添加headers
- 5.6.4 Scrapy项目中间件——添加Proxy
- 5.7 Scrapy爬虫实战五:爬虫攻防
- 5.7.1 创建一般爬虫
- 5.7.2 封锁间隔时间破解
- 5.7.3 封锁Cookies破解
- 5.7.4 封锁User-Agent破解
- 5.7.5 封锁IP破解
- 5.8 本章小结
- 第6章 BeautifulSoup爬虫
- 6.1 安装BeautifulSoup环境
- 6.1.1 在Windows下安装BeautifulSoup
- 6.1.2 在Linux下安装BeautifulSoup
- 6.1.3 最强大的IDE——Eclipse
- 6.2 BeautifulSoup解析器
- 6.2.1 bs4解析器选择
- 6.2.2 lxml解析器的安装
- 6.2.3 使用bs4过滤器
- 6.3 bs4爬虫实战一:获取百度贴吧内容
- 6.3.1 目标分析
- 6.3.2 项目实施
- 6.3.3 代码分析
- 6.3.4 Eclipse调试
- 6.4 bs4爬虫实战二:获取双色球中奖信息
- 6.4.1 目标分析
- 6.4.2 项目实施
- 6.4.3 保存结果到Excel
- 6.4.4 代码分析
- 6.5 bs4爬虫实战三:获取起点小说信息
- 6.5.1 目标分析
- 6.5.2 项目实施
- 6.5.3 保存结果到MySQL
- 6.5.4 代码分析
- 6.6 bs4爬虫实战四:获取电影信息
- 6.6.1 目标分析
- 6.6.2 项目实施
- 6.6.3 bs4反爬虫
- 6.6.4 代码分析
- 6.7 bs4爬虫实战五:获取音悦台榜单
- 6.7.1 目标分析
- 6.7.2 项目实施
- 6.7.3 代码分析
- 6.8 本章小结
- 第7章 PyQuery模块
- 7.1 PyQuery模块
- 7.1.1 什么是PyQuery模块
- 7.1.2 PyQuery与其他工具
- 7.1.3 PyQuery模块的安装
- 7.2 PyQuery模块的用法
- 7.2.1 使用字符串初始化
- 7.2.2 使用文件初始化
- 7.2.3 使用URL初始化
- 7.3 CSS筛选器的使用
- 7.3.1 基本CSS选择器
- 7.3.2 查找节点
- 7.3.3 遍历结果
- 7.3.4 获取文本信息
- 7.4 PyQuery爬虫实战一:爬取百度风云榜
- 7.5 PyQuery爬虫实战二:爬取微博热搜
- 7.6 本章小结
- 第8章 Selenium模拟浏览器
- 8.1 安装Selenium模块
- 8.1.1 在Windows下安装Selenium模块
- 8.1.2 在Linux下安装Selenium模块
- 8.2 浏览器选择
- 8.2.1 Webdriver支持列表
- 8.2.2 在Windows下安装PhantomJS
- 8.2.3 在Linux下安装PhantomJS
- 8.3 Selenium&PhantomJS抓取数据
- 8.3.1 获取百度搜索结果
- 8.3.2 获取搜索结果
- 8.3.3 获取有效数据位置
- 8.3.4 从位置中获取有效数据
- 8.4 Selenium&PhantomJS实战一:获取代理
- 8.4.1 准备环境
- 8.4.2 爬虫代码
- 8.4.3 代码解释
- 8.5 Selenium&PhantomJS实战二:漫画爬虫
- 8.5.1 准备环境
- 8.5.2 爬虫代码
- 8.5.3 代码解释
- 8.6 本章小结
- 第9章 PySpider框架的使用
- 9.1 安装PySpider
- 9.1.1 安装PySpider
- 9.1.2 使用PyQuery测试
- 9.2 PySpider实战一:优酷影视排行
- 9.2.1 创建项目
- 9.2.2 爬虫编写一:使用PySpider+PyQuery实现爬取
- 9.2.3 爬虫编写二:使用PySpider+ BeautifulSoup实现爬取
- 9.3 PySpider实战二:电影下载
- 9.3.1 项目分析
- 9.3.2 爬虫编写
- 9.3.3 爬虫运行、调试
- 9.3.4 删除项目
- 9.4 PySpider实战三:音悦台MusicTop
- 9.4.1 项目分析
- 9.4.2 爬虫编写
- 9.5 本章小结
- 第10章 图形验证识别技术
- 10.1 图像识别开源库:Tesseract
- 10.1.1 安装Tesseract
- 10.1.2 设置环境变量
- 10.1.3 测试一:使用tesseract命令识别图片中的字符
- 10.1.4 测试二:使用pytesseract模块识别图片中的英文字符
- 10.1.5 测试三:使用pytesseract模块识别图片中的中文文字
- 10.2 对网络验证码的识别
- 10.2.1 图形验证实战一:读取网络验证码并识别
- 10.2.2 图形验证实战二:对验证码进行转化
- 10.3 实战三:破解滑块验证码
- 10.3.1 所需工具
- 10.3.2 解决思路
- 10.3.3 编写代码
- 10.4 本章小结
- 第11章 爬取App
- 11.1 Charles的使用
- 11.1.1 下载安装Charles
- 11.1.2 界面介绍
- 11.1.3 Proxy菜单
- 11.1.4 使用Charles进行PC端抓包
- 11.1.5 使用Charles进行移动端抓包
- 11.2 Mitmproxy的使用
- 11.2.1 安装Mitmproxy
- 11.2.2 启动Mitmproxy
- 11.2.3 编写自定义脚本
- 11.2.4 Mitmproxy事件
- 11.2.5 实战:演示Mitmproxy
- 11.3 实战:使用Mitmdump爬取App
- 11.3.1 事先准备
- 11.3.2 带脚本抓取
- 11.3.3 分析结果并保存
- 11.4 Appium的基本使用
- 11.4.1 安装Appium——直接下载安装包AppiumDesktop
- 11.4.2 安装Appium——通过Node.js
- 11.4.3 Android开发环境配置
- 11.4.4 iOS开发环境配置
- 11.4.5 使用Appium
- 11.4.6 操作App
- 11.5 本章小结
- 第12章 爬虫与反爬虫
- 12.1 防止爬虫IP被禁
- 12.1.1 反爬虫在行动
- 12.1.2 爬虫的应对
- 12.2 在爬虫中使用Cookies
- 12.2.1 通过Cookies反爬虫
- 12.2.2 带Cookies的爬虫
- 12.2.3 动态加载反爬虫
- 12.2.4 使用浏览器获取数据
- 12.3 本章小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。