4.7 用户推荐指数
计算机
类型
可以朗读
语音朗读
318千字
字数
2021-06-01
发行日期
展开全部
主编推荐语
本书从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python实现网络爬虫开发应该掌握的技术。
内容简介
全书共分19章,内容包括初识网络爬虫、了解Web前端、请求模块urllib、请求模块urllib3、请求模块requests、高级网络请求模块、正则表达式、XPath解析、解析数据的BeautifulSoup、爬取动态渲染的信息、多线程与多进程爬虫、数据处理、数据存储、数据可视化、App抓包工具、识别验证码、Scrapy爬虫框架、Scrapy_Redis分布式爬虫、数据侦探。
书中所有知识都结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可轻松领会网络爬虫程序开发的精髓,快速提高开发技能。
目录
- 版权信息
- 内容简介
- 前言
- 第1篇 基础知识
- 第1章 初识网络爬虫
- 1.1 网络爬虫概述
- 1.2 网络爬虫的分类
- 1.3 网络爬虫的基本原理
- 1.4 搭建开发环境
- 1.5 小结
- 第2章 了解Web前端
- 2.1 HTTP基本原理
- 2.2 HTML语言
- 2.3 CSS层叠样式表
- 2.4 JavaScript动态脚本语言
- 2.5 小结
- 第3章 请求模块urllib
- 3.1 urllib简介
- 3.2 使用urlopen()方法发送请求
- 3.3 复杂的网络请求
- 3.4 异常处理
- 3.5 解析链接
- 3.6 小结
- 第4章 请求模块urllib3
- 4.1 urllib3简介
- 4.2 发送网络请求
- 4.3 复杂请求的发送
- 4.4 上传文件
- 4.5 小结
- 第5章 请求模块requests
- 5.1 请求方式
- 5.2 复杂的网络请求
- 5.3 代理服务
- 5.4 小结
- 第6章 高级网络请求模块
- 6.1 Requests-Cache的安装与测试
- 6.2 缓存的应用
- 6.3 强大的Requests-HTML模块
- 6.4 小结
- 第2篇 核心技术
- 第7章 正则表达式
- 7.1 正则表达式基础
- 7.2 使用match()进行匹配
- 7.3 使用search()进行匹配
- 7.4 使用findall()进行匹配
- 7.5 字符串处理
- 7.6 案例:爬取编程e学网视频
- 7.7 小结
- 第8章 XPath解析
- 8.1 XPath概述
- 8.2 XPath的解析操作
- 8.3 案例:爬取豆瓣电影Top 250
- 8.4 小结
- 第9章 解析数据的BeautifulSoup模块
- 9.1 使用BeautifulSoup解析数据
- 9.2 获取节点内容
- 9.3 方法获取内容
- 9.4 CSS选择器
- 9.5 小结
- 第10章 爬取动态渲染的信息
- 10.1 Ajax数据的爬取
- 10.2 使用Selenium爬取动态加载的信息
- 10.3 Splash的爬虫应用
- 10.4 小结
- 第11章 多线程与多进程爬虫
- 11.1 什么是线程
- 11.2 创建线程
- 11.3 线程间通信
- 11.4 什么是进程
- 11.5 创建进程的常用方式
- 11.6 进程间通信
- 11.7 多进程爬虫
- 11.8 小结
- 第12章 数据处理
- 12.1 初识Pandas
- 12.2 Series对象
- 12.3 DataFrame对象
- 12.4 数据的增、删、改、查
- 12.5 数据清洗
- 12.6 数据转换
- 12.7 导入外部数据
- 12.8 数据排序与排名
- 12.9 简单的数据计算
- 12.10 数据分组统计
- 12.11 日期数据处理
- 12.12 小结
- 第13章 数据存储
- 13.1 文件的存取
- 13.2 SQLite数据库
- 13.3 MySQL数据库
- 13.4 小结
- 第3篇 高级应用
- 第14章 数据可视化
- 14.1 Matplotlib概述
- 14.2 图表的常用设置
- 14.3 常用图表的绘制
- 14.4 案例:可视化二手房数据查询系统
- 14.5 小结
- 第15章 App抓包工具
- 15.1 Charles工具的下载与安装
- 15.2 SSL证书的安装
- 15.3 小结
- 第16章 识别验证码
- 16.1 字符验证码
- 16.2 第三方验证码识别
- 16.3 滑动拼图验证码
- 16.4 小结
- 第17章 Scrapy爬虫框架
- 17.1 了解Scrapy爬虫框架
- 17.2 搭建Scrapy爬虫框架
- 17.3 Scrapy的基本应用
- 17.4 编写Item Pipeline
- 17.5 自定义中间件
- 17.6 文件下载
- 17.7 小结
- 第18章 Scrapy_Redis分布式爬虫
- 18.1 安装Redis数据库
- 18.2 Scrapy-Redis模块
- 18.3 分布式爬取中文日报新闻数据
- 18.4 自定义分布式爬虫
- 18.5 小结
- 第4篇 项目实战
- 第19章 数据侦探
- 19.1 需求分析
- 19.2 系统设计
- 19.3 系统开发必备
- 19.4 主窗体的UI设计
- 19.5 设计数据库表结构
- 19.6 爬取数据
- 19.7 主窗体的数据展示
- 19.8 外设产品热卖榜
- 19.9 商品预警
- 19.10 系统功能
- 19.11 小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。