科技
类型
可以朗读
语音朗读
86千字
字数
2019-10-01
发行日期
展开全部
主编推荐语
Scrapy爬虫框架可以用来高效爬取数据,其自定义扩展灵活,适合用来学习和研究数据爬取技术。
内容简介
随着大数据分析、大数据计算火热兴起,越来越多的企业发布了数据分析岗位,而数据分析的基础则是海量的数据。Python中的Scrapy框架就是为了抓取数据而设计的。本书是一本Scrapy爬虫框架零基础起步的实战图书。
本书共分11章,第1-2章介绍Python环境的搭建、编辑器的使用、爬虫的一些基础知识(urllib、requests、Selenium、Xpath、CSS、正则表达式、BeautifulSoup库)等。第3-8章主要介绍Scrapy框架的原理与使用。第9-11章主要介绍Scrapy的优化,包括内置服务、组件优化等,最后通过一个完整的大型示例对全书的知识点做了应用总结。
本书入门门槛低、浅显易懂,适合所有Scrapy爬虫和数据分析行业的入门读者学习,也适合高等院校和培训学校作为爬虫入门教材和训练手册。
目录
- 版权信息
- 内容简介
- 前言
- 读懂本书
- 本书特点
- 示例代码下载
- 本书适用读者
- 第1章 Python开发环境的搭建
- 1.1 Python SDK安装
- 1.1.1 在Windows上安装Python
- 1.1.2 在Ubuntu上安装Python
- 1.2 安装开发工具PyCharm社区版
- 1.3 安装开发工具Visual Studio社区版
- 第2章 爬虫基础知识
- 2.1 爬虫原理
- 2.1.1 爬虫运行基本流程
- 2.1.2 HTTP请求过程
- 2.2 网页分析方法1:浏览器开发人员工具
- 2.2.1 Elements面板
- 2.2.2 Network面板
- 2.3 网页分析方法2:XPath语法
- 2.3.1 XPath节点
- 2.3.2 XPath语法
- 2.3.3 XPath轴
- 2.3.4 XPath运算符
- 2.4 网页分析方法3:CSS选择语法
- 2.4.1 元素选择器
- 2.4.2 类选择器
- 2.4.3 ID选择器
- 2.4.4 属性选择器
- 2.4.5 后代选择器
- 2.4.6 子元素选择器
- 2.4.7 相邻兄弟选择器
- 2.5 网页分析方法4:正则表达式
- 2.5.1 提取指定字符
- 2.5.2 预定义字符集
- 2.5.3 数量限定
- 2.5.4 分支匹配
- 2.5.5 分组
- 2.5.6 零宽断言
- 2.5.7 贪婪模式与非贪婪模式
- 2.5.8 Python中的正则表达式
- 2.6 爬虫常用类库1:Python中的HTTP基本库urllib
- 2.6.1 发送请求
- 2.6.2 使用Cookie
- 2.7 爬虫常用类库2:更人性化的第三方库requests
- 2.7.1 发送请求
- 2.7.2 请求头
- 2.7.3 响应内容
- 2.7.4 响应状态码
- 2.7.5 cookies参数
- 2.7.6 重定向与请求历史
- 2.7.7 超时
- 2.7.8 设置代理
- 2.7.9 会话对象
- 2.8 爬虫常用类库3:元素提取利器BeautifulSoup
- 2.8.1 安装BeautifulSoup
- 2.8.2 安装解析器
- 2.8.3 BeautifulSoup使用方法
- 2.8.4 BeautifulSoup对象
- 2.8.5 遍历文档树
- 2.8.6 搜索文档树
- 2.8.7 BeautifulSoup中的CSS选择器
- 2.9 爬虫常用类库4:Selenium操纵浏览器
- 2.9.1 安装Selenium
- 2.9.2 Selenium的基本使用方法
- 2.9.3 Selenium Webdriver的原理
- 2.9.4 Selenium中的元素定位方法
- 2.9.5 Selenium Webdriver基本操作
- 2.9.6 Selenium实战:抓取拉钩网招聘信息
- 2.10 爬虫常用类库5:Scrapy爬虫框架
- 2.10.1 安装Scrapy
- 2.10.2 Scrapy简介
- 2.11 基本爬虫实战:抓取cnBeta网站科技类文章
- 2.11.1 URL管理器
- 2.11.2 数据下载器
- 2.11.3 数据分析器
- 2.11.4 数据保存器
- 2.11.5 调度器
- 第3章 Scrapy命令行与Shell
- 3.1 Scrapy命令行介绍
- 3.1.1 使用startproject创建项目
- 3.1.2 使用genspider创建爬虫
- 3.1.3 使用crawl启动爬虫
- 3.1.4 使用list查看爬虫
- 3.1.5 使用fetch获取数据
- 3.1.6 使用runspider运行爬虫
- 3.1.7 通过view使用浏览器打开URL
- 3.1.8 使用parse测试爬虫
- 3.2 Scrapy Shell命令行
- 3.2.1 Scrapy Shell的用法
- 3.2.2 实战:解析名人名言网站
- 第4章 Scrapy爬虫
- 4.1 编写爬虫
- 4.1.1 scrapy.Spider爬虫基本类
- 4.1.2 start_requests()方法
- 4.1.3 parse(response)方法
- 4.1.4 Selector选择器
- 4.2 通用爬虫
- 4.2.1 CrawlSpider
- 4.2.2 XMLFeedSpider
- 4.2.3 CSVFeedSpider
- 4.2.4 SitemapSpider
- 4.3 爬虫实战
- 4.3.1 实战1:CrawlSpider爬取名人名言
- 4.3.2 实战2:XMLFeedSpider爬取伯乐在线的RSS
- 4.3.3 实战3:CSVFeedSpider提取csv文件数据
- 4.3.4 实战4:SitemapSpider爬取博客园文章
- 第5章 Scrapy管道
- 5.1 管道简介
- 5.2 编写自定义管道
- 5.3 下载文件和图片
- 5.3.1 文件管道
- 5.3.2 图片管道
- 5.4 数据库存储MySQL
- 5.4.1 在Ubuntu上安装MySQL
- 5.4.2 在Windows上安装MySQL
- 5.4.3 MySQL基础
- 5.4.4 MySQL基本操作
- 5.4.5 Python操作MySQL
- 5.5 数据库存储MongoDB
- 5.5.1 在Ubuntu上安装MongoDB
- 5.5.2 在Windows上安装MongoDB
- 5.5.3 MongoDB基础
- 5.5.4 MongoDB基本操作
- 5.5.5 Python操作MongoDB
- 5.6 实战:爬取链家二手房信息并保存到数据库
- 第6章 Request与Response
- 6.1 Request对象
- 6.1.1 Request类详解
- 6.1.2 Request回调函数与错误处理
- 6.2 Response
- 6.2.1 Response类详解
- 6.2.2 Response子类
- 第7章 Scrapy中间件
- 7.1 编写自定义Spider中间件
- 7.1.1 激活中间件
- 7.1.2 编写Spider中间件
- 7.2 Spider内置中间件
- 7.2.1 DepthMiddleware爬取深度中间件
- 7.2.2 HttpErrorMiddleware失败请求处理中间件
- 7.2.3 OffsiteMiddleware过滤请求中间件
- 7.2.4 RefererMiddleware参考位置中间件
- 7.2.5 UrlLengthMiddleware网址长度限制中间件
- 7.3 编写自定义下载器中间件
- 7.3.1 激活中间件
- 7.3.2 编写下载器中间件
- 7.4 下载器内置中间件
- 7.4.1 CookiesMiddleware
- 7.4.2 HttpProxyMiddleware
- 7.5 实战:为爬虫添加中间件
- 第8章 Scrapy配置与内置服务
- 8.1 Scrapy配置简介
- 8.1.1 命令行选项(优先级最高)
- 8.1.2 每个爬虫内配置
- 8.1.3 项目设置模块
- 8.1.4 默认的命令行配置
- 8.1.5 默认全局配置(优先级最低)
- 8.2 日志
- 8.3 数据收集
- 8.4 发送邮件
- 8.4.1 简单例子
- 8.4.2 MailSender类
- 8.4.3 在settings.py中对Mail进行设置
- 8.5 实战:抓取猫眼电影TOP100榜单数据
- 8.5.1 分析页面元素
- 8.5.2 创建项目
- 8.5.3 编写items.py
- 8.5.4 编写管道pipelines.py
- 8.5.5 编写爬虫文件top100.py
- 第9章 模拟登录
- 9.1 模拟提交表单
- 9.2 用Cookie模拟登录状态
- 9.3 项目实战
- 9.3.1 实战1:使用FormRequest模拟登录豆瓣
- 9.3.2 实战2:使用Cookie登录
- 第10章 Scrapy爬虫优化
- 10.1 Scrapy+MongoDB实战:抓取并保存IT之家博客新闻
- 10.1.1 确定目标
- 10.1.2 创建项目
- 10.1.3 编写items.py文件
- 10.1.4 编写爬虫文件news.py
- 10.1.5 编写管道pipelines.py
- 10.1.6 编写settings.py
- 10.1.7 运行爬虫
- 10.2 用Benchmark进行本地环境评估
- 10.3 扩展爬虫
- 10.3.1 增大并发
- 10.3.2 关闭Cookie
- 10.3.3 关闭重试
- 10.3.4 减少下载超时时间
- 10.3.5 关闭重定向
- 10.3.6 AutoThrottle扩展
- 第11章 Scrapy项目实战:爬取某社区用户详情
- 11.1 项目分析
- 11.1.1 页面分析
- 11.1.2 抓取流程
- 11.2 创建爬虫
- 11.2.1 cookies收集器
- 11.2.2 Items类
- 11.2.3 Pipeline管道编写
- 11.2.4 Spider爬虫文件
- 11.2.5 Middlewars中间件编写
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。