展开全部

主编推荐语

Python资深开发者范传辉,教你零基础学习爬虫技术。

内容简介

本书从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算、大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应用,进而介绍如何设计自己的爬虫应用。

本书主要内容分为基础篇、中级篇、深入篇三篇。基础篇包括Python编程基础、Web前端基础、HTML基础知识、基础爬虫设计、强化爬虫技术等。

中级篇包括数据存储、动态网站抓取、协议分析、Scrapy爬虫框架分析及实战案例等。高级篇包括增量式爬虫、分布式爬虫、人性化爬虫等框架设计。

目录

  • 版权信息
  • 前言
  • 基础篇
  • 第1章 回顾Python编程
  • 1.1 安装Python
  • 1.2 搭建开发环境
  • 1.3 IO编程
  • 1.4 进程和线程
  • 1.5 网络编程
  • 1.6 小结
  • 第2章 Web前端基础
  • 2.1 W3C标准
  • 2.2 HTTP标准
  • 2.3 小结
  • 第3章 初识网络爬虫
  • 3.1 网络爬虫概述
  • 3.2 HTTP请求的Python实现
  • 3.3 小结
  • 第4章 HTML解析大法
  • 4.1 初识Firebug
  • 4.2 正则表达式
  • 4.3 强大的BeautifulSoup
  • 4.4 小结
  • 第5章 数据存储(无数据库版)
  • 5.1 HTML正文抽取
  • 5.2 多媒体文件抽取
  • 5.3 Email提醒
  • 5.4 小结
  • 第6章 实战项目:基础爬虫
  • 6.1 基础爬虫架构及运行流程
  • 6.2 URL管理器
  • 6.3 HTML下载器
  • 6.4 HTML解析器
  • 6.5 数据存储器
  • 6.6 爬虫调度器
  • 6.7 小结
  • 第7章 实战项目:简单分布式爬虫
  • 7.1 简单分布式爬虫结构
  • 7.2 控制节点
  • 7.3 爬虫节点
  • 7.4 小结
  • 中级篇
  • 第8章 数据存储(数据库版)
  • 8.1 SQLite
  • 8.2 MySQL
  • 8.3 更适合爬虫的MongoDB
  • 8.4 小结
  • 第9章 动态网站抓取
  • 9.1 Ajax和动态HTML
  • 9.2 动态爬虫1:爬取影评信息
  • 9.3 PhantomJS
  • 9.4 Selenium
  • 9.5 动态爬虫2:爬取去哪网
  • 9.6 小结
  • 第10章 Web端协议分析
  • 10.1 网页登录POST分析
  • 10.2 验证码问题
  • 10.3 www>m>wap
  • 10.4 小结
  • 第11章 终端协议分析
  • 11.1 PC客户端抓包分析
  • 11.2 App抓包分析
  • 11.3 API爬虫:爬取mp3资源信息
  • 11.4 小结
  • 第12章 初窥Scrapy爬虫框架
  • 12.1 Scrapy爬虫架构
  • 12.2 安装Scrapy
  • 12.3 创建cnblogs项目
  • 12.4 创建爬虫模块
  • 12.5 选择器
  • 12.6 命令行工具
  • 12.7 定义Item
  • 12.8 翻页功能
  • 12.9 构建Item Pipeline
  • 12.10 内置数据存储
  • 12.11 内置图片和文件下载方式
  • 12.12 启动爬虫
  • 12.13 强化爬虫
  • 12.14 小结
  • 第13章 深入Scrapy爬虫框架
  • 13.1 再看Spider
  • 13.2 Item Loader
  • 13.3 再看Item Pipeline
  • 13.4 请求与响应
  • 13.5 下载器中间件
  • 13.6 Spider中间件
  • 13.7 扩展
  • 13.8 突破反爬虫
  • 13.9 小结
  • 第14章 实战项目:Scrapy爬虫
  • 14.1 创建知乎爬虫
  • 14.2 定义Item
  • 14.3 创建爬虫模块
  • 14.4 Pipeline
  • 14.5 优化措施
  • 14.6 部署爬虫
  • 14.7 小结
  • 深入篇
  • 第15章 增量式爬虫
  • 15.1 去重方案
  • 15.2 BloomFilter算法
  • 15.3 Scrapy和BloomFilter
  • 15.4 小结
  • 第16章 分布式爬虫与Scrapy
  • 16.1 Redis基础
  • 16.2 Python和Redis
  • 16.3 MongoDB集群
  • 16.4 小结
  • 第17章 实战项目:Scrapy分布式爬虫
  • 17.1 创建云起书院爬虫
  • 17.2 定义Item
  • 17.3 编写爬虫模块
  • 17.4 Pipeline
  • 17.5 应对反爬虫机制
  • 17.6 去重优化
  • 17.7 小结
  • 第18章 人性化PySpider爬虫框架
  • 18.1 PySpider与Scrapy
  • 18.2 安装PySpider
  • 18.3 创建豆瓣爬虫
  • 18.4 选择器
  • 18.5 Ajax和HTTP请求
  • 18.6 PySpider和PhantomJS
  • 18.7 数据存储
  • 18.8 PySpider爬虫架构
  • 18.9 小结
展开全部

评分及书评

评分不足
1个评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。