展开全部

主编推荐语

基于Python3.8,详解网络爬虫技术。

内容简介

本书分为8章,内容包括Python的开发环境、爬虫的基础原理和概念、数据解析与存贮、简单爬虫的使用、PyQuery模块、Scrapy框架、Beautiful Soup框架开发出不同的网络爬虫。用实例显示出不同框架的优缺点,供你学习选择。

目录

  • 版权信息
  • 内容简介
  • 前言
  • 第1章 Python环境配置
  • 1.1 Python简介
  • 1.1.1 Python的历史由来
  • 1.1.2 Python的现状
  • 1.1.3 Python的应用
  • 1.2 Python 3.8.0开发环境配置
  • 1.2.1 在Windows下安装Python
  • 1.2.2 在Windows下安装配置pip
  • 1.2.3 在Linux下安装Python
  • 1.2.4 在Linux下安装配置pip
  • 1.2.5 永远的hello world
  • 1.3 本章小结
  • 第2章 爬虫基础快速入门
  • 2.1 HTTP基本原理
  • 2.1.1 URI和URL
  • 2.1.2 超文本
  • 2.1.3 HTTP和HTTPS
  • 2.1.4 HTTP请求过程
  • 2.1.5 请求
  • 2.1.6 响应
  • 2.2 网页基础
  • 2.2.1 网页的组成
  • 2.2.2 网页的结构
  • 2.2.3 节点树及节点间的关系
  • 2.2.4 选择器
  • 2.3 爬虫的基本原理
  • 2.3.1 爬虫概述
  • 2.3.2 能抓取什么样的数据
  • 2.3.3 JavaScript渲染页面
  • 2.4 会话和Cookies
  • 2.4.1 静态网页和动态网页
  • 2.4.2 无状态HTTP
  • 2.4.3 常见误区
  • 2.5 代理的基本原理
  • 2.5.1 基本原理
  • 2.5.2 代理的作用
  • 2.5.3 代理分类
  • 2.5.4 常见代理设置
  • 2.6 本章小结
  • 第3章 数据存储与解析
  • 3.1 文件存储
  • 3.1.1 TXT文件存储
  • 3.1.2 JSON文件存储
  • 3.1.3 CSV文件存储
  • 3.2 关系型数据库存储
  • 3.2.1 连接数据库
  • 3.2.2 创建表
  • 3.2.3 插入数据
  • 3.2.4 浏览数据
  • 3.2.5 修改数据
  • 3.2.6 删除数据
  • 3.3 非关系型数据库存储
  • 3.3.1 安装数据库
  • 3.3.2 MongoDB概念解析
  • 3.3.3 创建数据库
  • 3.3.4 创建集合
  • 3.3.5 插入文档
  • 3.3.6 查询集合数据
  • 3.3.7 修改记录
  • 3.3.8 数据排序
  • 3.3.9 删除文档
  • 3.4 lxml模块解析数据
  • 3.4.1 安装模块
  • 3.4.2 XPath常用规则
  • 3.4.3 读取文件进行解析
  • 3.5 本章小结
  • 第4章 Python爬虫常用模块
  • 4.1 Python网络爬虫技术核心
  • 4.1.1 Python网络爬虫实现原理
  • 4.1.2 爬行策略
  • 4.1.3 身份识别
  • 4.2 Python 3标准库之urllib.request模块
  • 4.2.1 urllib.request请求返回网页
  • 4.2.2 urllib.request使用代理访问网页
  • 4.2.3 urllib.request修改header
  • 4.3 Python 3标准库之logging模块
  • 4.3.1 简述logging模块
  • 4.3.2 自定义模块myLog
  • 4.4 re模块(正则表达式)
  • 4.4.1 re模块(正则表达式的操作)
  • 4.4.2 re模块实战
  • 4.5 其他有用模块
  • 4.5.1 sys模块(系统参数获取)
  • 4.5.2 time模块(获取时间信息)
  • 4.6 本章小结
  • 第5章 Scrapy爬虫框架
  • 5.1 安装Scrapy
  • 5.1.1 在Windows下安装Scrapy环境
  • 5.1.2 在Linux下安装Scrapy
  • 5.1.3 vim编辑器
  • 5.2 Scrapy选择器XPath和CSS
  • 5.2.1 XPath选择器
  • 5.2.2 CSS选择器
  • 5.2.3 其他选择器
  • 5.3 Scrapy爬虫实战一:今日影视
  • 5.3.1 创建Scrapy项目
  • 5.3.2 Scrapy文件介绍
  • 5.3.3 Scrapy爬虫的编写
  • 5.4 Scrapy爬虫实战二:天气预报
  • 5.4.1 项目准备
  • 5.4.2 创建并编辑Scrapy爬虫
  • 5.4.3 数据存储到JSON
  • 5.4.4 数据存储到MySQL
  • 5.5 Scrapy爬虫实战三:获取代理
  • 5.5.1 项目准备
  • 5.5.2 创建编辑Scrapy爬虫
  • 5.5.3 多个Spider
  • 5.5.4 处理Spider数据
  • 5.6 Scrapy爬虫实战四:糗事百科
  • 5.6.1 目标分析
  • 5.6.2 创建编辑Scrapy爬虫
  • 5.6.3 Scrapy项目中间件——添加headers
  • 5.6.4 Scrapy项目中间件——添加Proxy
  • 5.7 Scrapy爬虫实战五:爬虫攻防
  • 5.7.1 创建一般爬虫
  • 5.7.2 封锁间隔时间破解
  • 5.7.3 封锁Cookies破解
  • 5.7.4 封锁User-Agent破解
  • 5.7.5 封锁IP破解
  • 5.8 本章小结
  • 第6章 BeautifulSoup爬虫
  • 6.1 安装BeautifulSoup环境
  • 6.1.1 在Windows下安装BeautifulSoup
  • 6.1.2 在Linux下安装BeautifulSoup
  • 6.1.3 最强大的IDE——Eclipse
  • 6.2 BeautifulSoup解析器
  • 6.2.1 bs4解析器选择
  • 6.2.2 lxml解析器的安装
  • 6.2.3 使用bs4过滤器
  • 6.3 bs4爬虫实战一:获取百度贴吧内容
  • 6.3.1 目标分析
  • 6.3.2 项目实施
  • 6.3.3 代码分析
  • 6.3.4 Eclipse调试
  • 6.4 bs4爬虫实战二:获取双色球中奖信息
  • 6.4.1 目标分析
  • 6.4.2 项目实施
  • 6.4.3 保存结果到Excel
  • 6.4.4 代码分析
  • 6.5 bs4爬虫实战三:获取起点小说信息
  • 6.5.1 目标分析
  • 6.5.2 项目实施
  • 6.5.3 保存结果到MySQL
  • 6.5.4 代码分析
  • 6.6 bs4爬虫实战四:获取电影信息
  • 6.6.1 目标分析
  • 6.6.2 项目实施
  • 6.6.3 bs4反爬虫
  • 6.6.4 代码分析
  • 6.7 bs4爬虫实战五:获取音悦台榜单
  • 6.7.1 目标分析
  • 6.7.2 项目实施
  • 6.7.3 代码分析
  • 6.8 本章小结
  • 第7章 PyQuery模块
  • 7.1 PyQuery模块
  • 7.1.1 什么是PyQuery模块
  • 7.1.2 PyQuery与其他工具
  • 7.1.3 PyQuery模块的安装
  • 7.2 PyQuery模块的用法
  • 7.2.1 使用字符串初始化
  • 7.2.2 使用文件初始化
  • 7.2.3 使用URL初始化
  • 7.3 CSS筛选器的使用
  • 7.3.1 基本CSS选择器
  • 7.3.2 查找节点
  • 7.3.3 遍历结果
  • 7.3.4 获取文本信息
  • 7.4 PyQuery爬虫实战一:爬取百度风云榜
  • 7.5 PyQuery爬虫实战二:爬取微博热搜
  • 7.6 本章小结
  • 第8章 Selenium模拟浏览器
  • 8.1 安装Selenium模块
  • 8.1.1 在Windows下安装Selenium模块
  • 8.1.2 在Linux下安装Selenium模块
  • 8.2 浏览器选择
  • 8.2.1 Webdriver支持列表
  • 8.2.2 在Windows下安装PhantomJS
  • 8.2.3 在Linux下安装PhantomJS
  • 8.3 Selenium&PhantomJS抓取数据
  • 8.3.1 获取百度搜索结果
  • 8.3.2 获取搜索结果
  • 8.3.3 获取有效数据位置
  • 8.3.4 从位置中获取有效数据
  • 8.4 Selenium&PhantomJS实战一:获取代理
  • 8.4.1 准备环境
  • 8.4.2 爬虫代码
  • 8.4.3 代码解释
  • 8.5 Selenium&PhantomJS实战二:漫画爬虫
  • 8.5.1 准备环境
  • 8.5.2 爬虫代码
  • 8.5.3 代码解释
  • 8.6 本章小结
  • 第9章 PySpider框架的使用
  • 9.1 安装PySpider
  • 9.1.1 安装PySpider
  • 9.1.2 使用PyQuery测试
  • 9.2 PySpider实战一:优酷影视排行
  • 9.2.1 创建项目
  • 9.2.2 爬虫编写一:使用PySpider+PyQuery实现爬取
  • 9.2.3 爬虫编写二:使用PySpider+ BeautifulSoup实现爬取
  • 9.3 PySpider实战二:电影下载
  • 9.3.1 项目分析
  • 9.3.2 爬虫编写
  • 9.3.3 爬虫运行、调试
  • 9.3.4 删除项目
  • 9.4 PySpider实战三:音悦台MusicTop
  • 9.4.1 项目分析
  • 9.4.2 爬虫编写
  • 9.5 本章小结
  • 第10章 图形验证识别技术
  • 10.1 图像识别开源库:Tesseract
  • 10.1.1 安装Tesseract
  • 10.1.2 设置环境变量
  • 10.1.3 测试一:使用tesseract命令识别图片中的字符
  • 10.1.4 测试二:使用pytesseract模块识别图片中的英文字符
  • 10.1.5 测试三:使用pytesseract模块识别图片中的中文文字
  • 10.2 对网络验证码的识别
  • 10.2.1 图形验证实战一:读取网络验证码并识别
  • 10.2.2 图形验证实战二:对验证码进行转化
  • 10.3 实战三:破解滑块验证码
  • 10.3.1 所需工具
  • 10.3.2 解决思路
  • 10.3.3 编写代码
  • 10.4 本章小结
  • 第11章 爬取App
  • 11.1 Charles的使用
  • 11.1.1 下载安装Charles
  • 11.1.2 界面介绍
  • 11.1.3 Proxy菜单
  • 11.1.4 使用Charles进行PC端抓包
  • 11.1.5 使用Charles进行移动端抓包
  • 11.2 Mitmproxy的使用
  • 11.2.1 安装Mitmproxy
  • 11.2.2 启动Mitmproxy
  • 11.2.3 编写自定义脚本
  • 11.2.4 Mitmproxy事件
  • 11.2.5 实战:演示Mitmproxy
  • 11.3 实战:使用Mitmdump爬取App
  • 11.3.1 事先准备
  • 11.3.2 带脚本抓取
  • 11.3.3 分析结果并保存
  • 11.4 Appium的基本使用
  • 11.4.1 安装Appium——直接下载安装包AppiumDesktop
  • 11.4.2 安装Appium——通过Node.js
  • 11.4.3 Android开发环境配置
  • 11.4.4 iOS开发环境配置
  • 11.4.5 使用Appium
  • 11.4.6 操作App
  • 11.5 本章小结
  • 第12章 爬虫与反爬虫
  • 12.1 防止爬虫IP被禁
  • 12.1.1 反爬虫在行动
  • 12.1.2 爬虫的应对
  • 12.2 在爬虫中使用Cookies
  • 12.2.1 通过Cookies反爬虫
  • 12.2.2 带Cookies的爬虫
  • 12.2.3 动态加载反爬虫
  • 12.2.4 使用浏览器获取数据
  • 12.3 本章小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。