2.7 用户推荐指数
科技
类型
4.8
豆瓣评分
可以朗读
语音朗读
280千字
字数
2017-02-01
发行日期
展开全部
主编推荐语
讲透Python网络爬虫各项核心技术和主流框架,深度讲解网络爬虫的抓取技术与反爬攻关技巧。
内容简介
随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。在大数据时代,聚焦网络爬虫的应用需求越来越大。
本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。
目录
- 版权信息
- 前言
- 第一篇 理论基础篇
- 第1章 什么是网络爬虫
- 1.1 初识网络爬虫
- 1.2 为什么要学网络爬虫
- 1.3 网络爬虫的组成
- 1.4 网络爬虫的类型
- 1.5 爬虫扩展——聚焦爬虫
- 1.6 小结
- 第2章 网络爬虫技能总览
- 2.1 网络爬虫技能总览图
- 2.2 搜索引擎核心
- 2.3 用户爬虫的那些事儿
- 2.4 小结
- 第二篇 核心技术篇
- 第3章 网络爬虫实现原理与实现技术
- 3.1 网络爬虫实现原理详解
- 3.2 爬行策略
- 3.3 网页更新策略
- 3.4 网页分析算法
- 3.5 身份识别
- 3.6 网络爬虫实现技术
- 3.7 实例——metaseeker
- 3.8 小结
- 第4章 Urllib库与URLError异常处理
- 4.1 什么是Urllib库
- 4.2 快速使用Urllib爬取网页
- 4.3 浏览器的模拟——Headers属性
- 4.4 超时设置
- 4.5 HTTP协议请求实战
- 4.6 代理服务器的设置
- 4.7 DebugLog实战
- 4.8 异常处理神器——URLError实战
- 4.9 小结
- 第5章 正则表达式与Cookie的使用
- 5.1 什么是正则表达式
- 5.2 正则表达式基础知识
- 5.3 正则表达式常见函数
- 5.4 常见实例解析
- 5.5 什么是Cookie
- 5.6 Cookiejar实战精析
- 5.7 小结
- 第6章 手写Python爬虫
- 6.1 图片爬虫实战
- 6.2 链接爬虫实战
- 6.3 糗事百科爬虫实战
- 6.4 微信爬虫实战
- 6.5 什么是多线程爬虫
- 6.6 多线程爬虫实战
- 6.7 小结
- 第7章 学会使用Fiddler
- 7.1 什么是Fiddler
- 7.2 爬虫与Fiddler的关系
- 7.3 Fiddler的基本原理与基本界面
- 7.4 Fiddler捕获会话功能
- 7.5 使用QuickExec命令行
- 7.6 Fiddler断点功能
- 7.7 Fiddler会话查找功能
- 7.8 Fiddler的其他功能
- 7.9 小结
- 第8章 爬虫的浏览器伪装技术
- 8.1 什么是浏览器伪装技术
- 8.2 浏览器伪装技术准备工作
- 8.3 爬虫的浏览器伪装技术实战
- 8.4 小结
- 第9章 爬虫的定向爬取技术
- 9.1 什么是爬虫的定向爬取技术
- 9.2 定向爬取的相关步骤与策略
- 9.3 定向爬取实战
- 9.4 小结
- 第三篇 框架实现篇
- 第10章 了解Python爬虫框架
- 10.1 什么是Python爬虫框架
- 10.2 常见的Python爬虫框架
- 10.3 认识Scrapy框架
- 10.4 认识Crawley框架
- 10.5 认识Portia框架
- 10.6 认识newspaper框架
- 10.7 认识Python-goose框架
- 10.8 小结
- 第11章 爬虫利器——Scrapy安装与配置
- 11.1 在Windows7下安装及配置Scrapy实战详解
- 11.2 在Linux(Centos)下安装及配置Scrapy实战详解
- 11.3 在MAC下安装及配置Scrapy实战详解
- 11.4 小结
- 第12章 开启Scrapy爬虫项目之旅
- 12.1 认识Scrapy项目的目录结构
- 12.2 用Scrapy进行爬虫项目管理
- 12.3 常用工具命令
- 12.4 实战:Items的编写
- 12.5 实战:Spider的编写
- 12.6 XPath基础
- 12.7 Spider类参数传递
- 12.8 用XMLFeedSpider来分析XML源
- 12.9 学会使用CSVFeedSpider
- 12.10 Scrapy爬虫多开技能
- 12.11 避免被禁止
- 12.12 小结
- 第13章 Scrapy核心架构
- 13.1 初识Scrapy架构
- 13.2 常用的Scrapy组件详解
- 13.3 Scrapy工作流
- 13.4 小结
- 第14章 Scrapy中文输出与存储
- 14.1 Scrapy的中文输出
- 14.2 Scrapy的中文存储
- 14.3 输出中文到JSON文件
- 14.4 小结
- 第15章 编写自动爬取网页的爬虫
- 15.1 实战:items的编写
- 15.2 实战:pipelines的编写
- 15.3 实战:settings的编写
- 15.4 自动爬虫编写实战
- 15.5 调试与运行
- 15.6 小结
- 第16章 CrawlSpider
- 16.1 初识CrawlSpider
- 16.2 链接提取器
- 16.3 实战:CrawlSpider实例
- 16.4 小结
- 第17章 Scrapy高级应用
- 17.1 如何在Python3中操作数据库
- 17.2 爬取内容写进MySQL
- 17.3 小结
- 第四篇 项目实战篇
- 第18章 博客类爬虫项目
- 18.1 博客类爬虫项目功能分析
- 18.2 博客类爬虫项目实现思路
- 18.3 博客类爬虫项目编写实战
- 18.4 调试与运行
- 18.5 小结
- 第19章 图片类爬虫项目
- 19.1 图片类爬虫项目功能分析
- 19.2 图片类爬虫项目实现思路
- 19.3 图片类爬虫项目编写实战
- 19.4 调试与运行
- 19.5 小结
- 第20章 模拟登录爬虫项目
- 20.1 模拟登录爬虫项目功能分析
- 20.2 模拟登录爬虫项目实现思路
- 20.3 模拟登录爬虫项目编写实战
- 20.4 调试与运行
- 20.5 小结
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。