互联网
类型
可以朗读
语音朗读
132千字
字数
2019-12-01
发行日期
展开全部
主编推荐语
一书精通Python网络爬虫。
内容简介
本书共分3篇,针对Python爬虫初学者,从零开始,系统地讲解了如何利用Python进行常见的网络爬虫的程序开发。
第1篇快速入门篇(第1章~第9章):本篇主要介绍了Python环境的搭建和一些Python的基础语法知识等、以及App数据抓取、数据的存储方法等内容。
第2篇技能进阶篇(第10章~第12章):本篇主要介绍了PySpider和Scrapy两个常用爬虫框架的基本使用方法、分布式爬虫的实现思路,以及数据分析、数据清洗常用库的使用方法。
第3篇项目实战篇(第13章):本篇通过6个综合实战项目,详细地讲解了Python数据爬虫开始与实战应用。本篇对全书内容进行了总结回顾,强化读者的实操水平。
本书案例丰富,注重实战,既适合Python程序员和爬虫爱好者阅读学习,也适合作为广大职业院校相关专业的教学用书。
目录
- 版权信息
- 前言
- 第1篇 快速入门篇
- 第1章 Python基础
- 1.1 Python环境搭建
- 1.2 Python编程入门
- 1.3 新手实训
- 1.4 新手问答
- 本章小结
- 第2章 Python爬虫入门
- 2.1 爬虫的分类
- 2.2 爬虫的基本结构和工作流程
- 2.3 爬虫策略
- 2.4 HTTP的基本原理
- 2.5 网页基础
- 2.6 Session和Cookie
- 2.7 新手实训
- 2.8 新手问答
- 本章小结
- 第3章 基本库的使用
- 3.1 urllib
- 3.2 requests
- 3.3 re正则使用
- 3.4 XPath
- 3.5 新手实训
- 3.6 新手问答
- 本章小结
- 第4章 Ajax数据抓取
- 4.1 Ajax简介
- 4.2 使用Python模拟Ajax请求数据
- 4.3 新手实训
- 4.4 新手问答
- 本章小结
- 第5章 动态渲染页面爬取
- 5.1 Selenium的使用
- 5.2 Splash的基本使用
- 5.3 新手实训
- 5.4 新手问答
- 本章小结
- 第6章 代理的设置与使用
- 6.1 代理设置
- 6.2 代理池构建
- 6.3 付费代理的使用
- 6.4 ADSL拨号代理的搭建
- 6.5 新手问答
- 本章小结
- 第7章 验证码的识别与破解
- 7.1 普通图形验证码的识别
- 7.2 极验滑动验证码的破解
- 7.3 极验滑动拼图验证码破解
- 7.4 新手问答
- 本章小结
- 第8章 App数据抓取
- 8.1 Fiddler的基本使用
- 8.2 Charles的基本使用
- 8.3 Appium的基本使用
- 8.4 新手问答
- 本章小结
- 第9章 数据存储
- 9.1 文件存储
- 9.2 数据库存储
- 9.3 新手实训
- 9.4 新手问答
- 本章小结
- 第2篇 技能进阶篇
- 第10章 常用爬虫框架
- 10.1 PySpider框架
- 10.2 Scrapy框架
- 10.3 Scrapy-Splash的使用
- 10.4 新手实训
- 10.5 新手问答
- 本章小结
- 第11章 部署爬虫
- 11.1 Linux系统下安装Python 3
- 11.2 Docker的使用
- 11.3 Docker安装Python
- 11.4 Docker安装MySQL
- 本章小结
- 第12章 数据分析
- 12.1 NumPy的使用
- 12.2 Pandas的使用
- 12.3 pyecharts的使用
- 12.4 新手实训
- 12.5 新手问答
- 本章小结
- 第3篇 项目实战篇
- 第13章 爬虫项目实战
- 13.1 实战一:Selenium+XPath爬取简书
- 13.2 实战二:使用requests爬取腾讯人口迁徙数据
- 13.3 实战三:Scrapy爬取豆瓣电影
- 13.4 实战四:使用Selenium多线程异步爬取同城旅游网机票价格信息
- 13.5 实战五:数据分析Dessert Apples下12种苹果全年最高、最低和平均销量
- 13.6 实战六:中国南方航空机票信息爬取
- 本章小结
- 附录 Python常见面试题精选
展开全部
出版方
北京大学出版社
北京大学出版社是在1979年,经国家出版事业管理局同意,教育部批准成立的,恢复了北京大学出版社建制。北京大学出版社依靠北大雄厚的教学、科研力量,同时积极争取国内外专家学者的合作支持,出版了大量高水平、高质量、适应多层次需要的优秀高等教育教材。 北大出版社注意对教材进行全面追踪,捕捉信息,及时修订,以跟上各学科的最新发展,反映该学科研究的最新成果,保持北大版教材的领先地位。