《实战Python网络爬虫》电子书在线阅读-黄永祥-得到APP

互联网类型

8.3 豆瓣评分

可以朗读语音朗读

225千字字数

2019-06-01 发行日期

展开全部

主编推荐语

本书从原理到实践，循序渐进地讲述了使用Python开发网络爬虫的核心技术。

内容简介

全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识，包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析；数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识；数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用；数据入库讲述了MySQL和MongoDB的操作，通过ORM框架SQLAlchemy实现数据持久化，进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy，并以Scrapy与Selenium、Splash、Redis结合的项目案例，让读者深层次了解Scrapy的使用。此外，本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。

本书使用Python 3.X编写，技术先进，项目丰富，适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用，也很适合有一些网络爬虫编写经验，但希望更加全面、深入理解Python爬虫的开发人员使用。

评分及书评

评分不足

1个评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月，是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府，秉承清华人“自强不息，厚德载物”的人文精神，清华大学出版社在短短二十多年的时间里，迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向，把出版高等学校教学用书和科技图书作为主要任务，并为促进学术交流、繁荣出版事业设立了多项出版基金，逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色，在教育出版领域树立了强势品牌。