计算机
类型
可以朗读
语音朗读
147千字
字数
2023-05-01
发行日期
展开全部
主编推荐语
详解数据抓取、数据处理和数据分析的整个流程。
内容简介
本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。
同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。
目录
- 版权信息
- 面向新工科高等院校大数据专业系列教材编委会成员名单
- 出版说明
- 前言
- 基础篇
- 第1章 Python基础及网络爬虫
- 1.1 了解Python语言
- 1.1.1 Python是什么
- 1.1.2 Python的应用现状
- 1.2 配置安装Python开发环境
- 1.2.1 在Windows上安装
- 1.2.2 在Ubuntu和MacOS上安装
- 1.2.3 IDE的使用:以PyCharm为例
- 1.2.4 Jupyter Notebook简介
- 1.3 Python基本语法介绍
- 1.3.1 HelloWorld与数据类型
- 1.3.2 逻辑语句
- 1.3.3 Python中的函数与类
- 1.3.4 更深入了解Python
- 1.4 互联网、HTTP与HTML
- 1.4.1 互联网与HTTP
- 1.4.2 HTML
- 1.5 Hello, Spider!
- 1.5.1 编写第一个爬虫程序
- 1.5.2 对爬虫的思考
- 1.6 分析网站
- 1.6.1 robots.txt与Sitemap简介
- 1.6.2 网站技术分析
- 1.6.3 网站所有者信息分析
- 1.6.4 使用开发者工具检查网页
- 1.7 本章小结
- 1.8 实践:Python环境的配置与爬虫的运行
- 1.8.1 需求说明
- 1.8.2 实现思路及步骤
- 1.9 习题
- 第2章 数据采集与预处理
- 2.1 数据
- 2.1.1 数据的概念
- 2.1.2 数据类型
- 2.1.3 数据的存储形式
- 2.1.4 数据的价值
- 2.1.5 大数据时代
- 2.2 数据分析过程
- 2.3 数据采集
- 2.3.1 数据采集的概念
- 2.3.2 数据采集的数据源
- 2.3.3 数据采集方法
- 2.4 数据清洗
- 2.4.1 数据清洗概述
- 2.4.2 数据清洗的内容
- 2.4.3 数据清洗的基本流程
- 2.4.4 数据清洗的评价标准
- 2.5 数据集成
- 2.6 数据转换
- 2.6.1 数据转换概念与策略
- 2.6.2 平滑处理
- 2.6.3 标准化处理
- 2.7 数据脱敏
- 2.7.1 数据脱敏的原则
- 2.7.2 数据脱敏的方法
- 2.8 本章小结
- 2.9 实践:使用Python尝试数据的清洗
- 2.9.1 需求说明
- 2.9.2 实现思路及步骤
- 2.10 习题
- 第3章 静态网页采集
- 3.1 从采集开始
- 3.2 正则表达式
- 3.2.1 什么是正则表达式
- 3.2.2 正则表达式的简单使用
- 3.3 BeautifulSoup爬虫
- 3.3.1 安装BeautifulSoup
- 3.3.2 BeautifulSoup的基本用法
- 3.4 XPath与lxml
- 3.4.1 XPath
- 3.4.2 lxml与XPath的使用
- 3.5 遍历页面
- 3.5.1 抓取下一个页面
- 3.5.2 完成爬虫
- 3.6 使用API
- 3.6.1 API简介
- 3.6.2 API使用示例
- 3.7 本章小结
- 3.8 实践:哔哩哔哩直播间信息爬取练习
- 3.8.1 需求说明
- 3.8.2 实现思路及步骤
- 3.9 习题
- 第4章 数据存储
- 4.1 Python中的文件
- 4.1.1 Python的文件读写
- 4.1.2 对象序列化
- 4.2 Python中的字符串
- 4.3 Python中的图片
- 4.3.1 PIL与Pillow模块
- 4.3.2 Python与OpenCV简介
- 4.4 CSV
- 4.4.1 CSV简介
- 4.4.2 CSV的读写
- 4.5 数据库的使用
- 4.5.1 MySQL的使用
- 4.5.2 SQLite3的使用
- 4.5.3 SQLAlchemy的使用
- 4.5.4 Redis的使用
- 4.5.5 MongoDB的使用
- 4.6 其他类型的文档
- 4.7 本章小结
- 4.8 实践:使用Python 3读写SQLite数据库
- 4.8.1 需求说明
- 4.8.2 实现思路及步骤
- 4.9 习题
- 进阶篇
- 第5章 JavaScript与动态内容
- 5.1 JavaScript与AJAX技术
- 5.1.1 JavaScript语言
- 5.1.2 AJAX
- 5.2 抓取AJAX数据
- 5.2.1 分析数据
- 5.2.2 数据提取
- 5.3 抓取动态内容
- 5.3.1 动态渲染页面
- 5.3.2 使用Selenium
- 5.3.3 PyV8与Splash
- 5.4 本章小结
- 5.5 实践:爬取机械工业出版社新书上架信息
- 5.5.1 需求说明
- 5.5.2 实现思路及步骤
- 5.6 习题
- 第6章 模拟登录与验证码
- 6.1 表单
- 6.1.1 表单与POST
- 6.1.2 POST发送表单数据
- 6.2 Cookie
- 6.2.1 Cookie简介
- 6.2.2 在Python中Cookie的使用
- 6.3 模拟登录网站
- 6.3.1 分析网站
- 6.3.2 Cookie方法的模拟登录
- 6.4 验证码
- 6.4.1 图片验证码
- 6.4.2 滑动验证
- 6.5 本章小结
- 6.6 实践:通过Selenium模拟登录Gitee并保存Cookie
- 6.6.1 需求说明
- 6.6.2 实现思路及步骤
- 6.7 习题
- 第7章 爬虫数据的分析与处理
- 7.1 Python与文本分析
- 7.1.1 文本分析简介
- 7.1.2 jieba与SnowNLP
- 7.1.3 NLTK
- 7.1.4 文本分类与聚类
- 7.2 数据处理与科学计算
- 7.2.1 从MATLAB到Python
- 7.2.2 NumPy
- 7.2.3 Pandas
- 7.2.4 Matplotlib
- 7.2.5 SciPy与SymPy
- 7.3 本章小结
- 7.4 实践:中国每年大学招生人数变化的可视化
- 7.4.1 需求说明
- 7.4.2 实现思路及步骤
- 7.5 习题
- 提高篇
- 第8章 爬虫的灵活性和多样性
- 8.1 爬虫的灵活性——以微信数据抓取为例
- 8.1.1 用Selenium抓取Web微信信息
- 8.1.2 基于Python的微信API工具
- 8.2 爬虫的多样性
- 8.2.1 在BeautifulSoup和XPath之外
- 8.2.2 在线爬虫应用平台
- 8.2.3 使用urllib
- 8.3 爬虫的部署和管理
- 8.3.1 使用服务器部署爬虫
- 8.3.2 本地爬虫的编写
- 8.3.3 爬虫的部署
- 8.3.4 实时查看运行结果
- 8.3.5 使用框架管理爬虫
- 8.4 本章小结
- 8.5 实践:基于PyQuery爬取菜鸟教程
- 8.5.1 需求说明
- 8.5.2 实现思路及步骤
- 8.6 习题
- 第9章 Selenium模拟浏览器与网站测试
- 9.1 测试
- 9.1.1 什么是测试
- 9.1.2 什么是TDD
- 9.2 Python的单元测试
- 9.2.1 使用unittest
- 9.2.2 其他方法
- 9.3 使用Python爬虫测试网站
- 9.4 使用Selenium测试
- 9.4.1 Selenium测试常用的网站交互
- 9.4.2 结合Selenium进行单元测试
- 9.5 本章小结
- 9.6 实践:使用Selenium爬取百度搜索“爬虫”的结果
- 9.6.1 需求说明
- 9.6.2 实现思路及步骤
- 9.7 习题
- 第10章 爬虫框架Scrapy与反爬虫
- 10.1 爬虫框架
- 10.1.1 Scrapy简介
- 10.1.2 安装与学习Scrapy
- 10.1.3 Scrapy爬虫编写
- 10.1.4 其他爬虫框架
- 10.2 网站反爬虫
- 10.2.1 反爬虫策略简介
- 10.2.2 伪装Headers
- 10.2.3 代理IP的使用
- 10.2.4 控制访问频率
- 10.3 本章小结
- 10.4 实践:使用反反爬虫策略抓取新浪体育频道热门新闻标题
- 10.4.1 需求说明
- 10.4.2 实现思路及步骤
- 10.5 习题
- 实战篇
- 第11章 实战:根据关键词爬取新闻
- 11.1 利用Web Scraper工具
- 11.1.1 Web Scraper介绍
- 11.1.2 利用Web Scraper爬取新华网新闻
- 11.2 利用Selenium和XPath技术
- 11.2.1 Selenium介绍
- 11.2.2 XPath介绍
- 11.2.3 根据关键词爬取新闻
- 11.3 本章小结
- 第12章 实战:爬取科研文献信息
- 12.1 科研文献数据爬取
- 12.1.1 网页URL分析
- 12.1.2 网页响应内容获取
- 12.1.3 数据持久化存储
- 12.1.4 爬虫代码编写
- 12.1.5 大数据量文献爬虫
- 12.1.6 针对反爬虫的措施
- 12.2 本章小结
- 第13章 实战:蒸汽平台游戏数据爬取
- 13.1 爬取蒸汽平台上最受好评的前100个游戏信息
- 13.1.1 多线程
- 13.1.2 搜索页面分析和爬虫实现
- 13.1.3 游戏页面分析和爬虫实现
- 13.1.4 信息存储和结果展示
- 13.2 本章小结
- 第14章 实战:Scrapy框架爬取股票信息
- 14.1 任务介绍
- 14.2 Scrapy项目实战
- 14.2.1 新建Scrapy爬虫项目
- 14.2.2 使用Scrapy shell抓取并查看页面
- 14.2.3 爬虫代码编写
- 14.2.4 运行并存储数据
- 14.2.5 设置文件修改
- 14.3 本章小结
- 参考文献
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。