展开全部

主编推荐语

本书教授如何用Python获取电商数据,进行清洗和存储。

内容简介

本书内容来自笔者在浙江某高校授课内容,主要介绍运用Python工具获取电商平台的页面数据,并对数据做清洗和存储。本书简化了Python基础部分,保证有足够的篇幅来介绍爬虫和数据清洗的内容,对于Python基础,建议新手可以选购对应的基础书籍配合本书一起学习。

目录

  • 封面
  • 作者介绍
  • 版权页
  • 前言
  • 目录
  • 第1章 Python 基础
  • 1.1 安装 Python 环境
  • 1.1.1 Python 3.6.2 安装与配置
  • 1.1.2 使用 IDE 工具——PyCharm
  • 1.1.3 使用 IDE 工具——Anaconda
  • 1.2 Python 操作入门
  • 1.2.1 编写第一个 Python 代码
  • 1.2.2 Python 基本操作
  • 1.2.3 变量
  • 1.3 Python数据类型
  • 1.3.1 数字
  • 1.3.2 字符串
  • 1.3.3 列表
  • 1.3.4 元组
  • 1.3.5 集合
  • 1.3.6 字典
  • 1.4 Python 语句与函数
  • 1.4.1 条件语句
  • 1.4.2 循环语句
  • 1.4.3 函数
  • 第2章 写一个简单的爬虫
  • 2.1 关于爬虫的合法性
  • 2.2 了解网页
  • 2.2.1 认识网页结构
  • 2.2.2 写一个简单的 HTML
  • 2.3 使用 requests 库请求网站
  • 2.3.1 安装 requests 库
  • 2.3.2 爬虫的基本原理
  • 2.3.3 使用 GET 方式抓取数据
  • 2.3.4 使用 POST 方式抓取数据
  • 2.4 使用 Beautiful Soup 解析网页
  • 2.5 清洗和组织数据
  • 2.6 爬虫攻防战
  • 第3章 用 API 爬取天气预报数据
  • 3.1 注册免费 API 和阅读技术文档
  • 3.2 获取 API 数据
  • 3.3 存储数据到 MongoDB
  • 3.3.1 下载并安装 MongoDB
  • 3.3.2 在 PyCharm 中安装 Mongo Plugin
  • 3.3.3 将数据存入 MongoDB
  • 3.4 MongoDB 数据库查询
  • 第4章 大型爬虫案例:抓取某电商网站的商品数据
  • 4.1 观察页面特征和解析数据
  • 4.2 工作流程分析
  • 4.3 构建类目树
  • 4.4 获取产品列表
  • 4.5 代码优化
  • 4.6 爬虫效率优化
  • 4.7 容错处理
  • 第5章 Scrapy 爬虫
  • 5.1 Scrapy 简介
  • 5.2 Scrapy 安装
  • 5.3 案例:用 Scrapy 抓取股票行情
  • 第6章 Selenium 爬虫
  • 6.1 Selenium 简介
  • 6.2 案例:用 Selenium 抓取电商网站数据
  • 第7 章数据库连接和查询
  • 7.1 使用 PyMySQL
  • 7.1.1 连接数据库
  • 7.1.2 案例:某电商网站女装行业 TOP100 销量数据
  • 7.2 使用 SQLAlchemy
  • 7.2.1 SQLAlchemy 基本介绍
  • 7.2.2 SQLAlchemy 基本语法
  • 7.3 MongoDB
  • 7.3.1 MongoDB 基本语法
  • 7.3.2 案例:在某电商网站搜索“连衣裙”的商品数据
  • 第8章 NumPy
  • 8.1 NumPy 简介
  • 8.2 一维数组
  • 8.2.1 数组与列表的异同
  • 8.2.2 数组的创建
  • 8.3 多维数组
  • 8.3.1 多维数组的高效性能
  • 8.3.2 多维数组的索引与切片
  • 8.3.3 多维数组的属性
  • 8.4 数组的运算
  • 第9章 pandas 数据清洗
  • 9.1 数据读写、选择、整理和描述
  • 9.1.1 从 CSV 中读取数据
  • 9.1.2 向 CSV 写入数据
  • 9.1.3 数据选择
  • 9.1.4 数据整理
  • 9.1.5 数据描述
  • 9.2 数据分组、分割、合并和变形
  • 9.2.1 数据分组
  • 9.2.2 数据分割
  • 9.2.3 数据合并
  • 9.2.4 数据变形
  • 9.2.5 案例:旅游数据的分析与变形
  • 9.3 缺失值、异常值和重复值处理
  • 9.3.1 缺失值处理
  • 9.3.2 检测和过滤异常值
  • 9.3.3 移除重复数据
  • 9.3.4 案例:旅游数据的值检查与处理
  • 9.4 时序数据处理
  • 9.4.1 日期/时间数据转换
  • 9.4.2 时序数据基础操作
  • 9.4.3 案例:天气数据分析与处理
  • 9.5 数据类型转换
  • 9.6 正则表达式
  • 9.6.1 元字符与限定符
  • 9.6.2 案例:用正则表达式提取网页文本信息
  • 第10章 综合应用实例
  • 10.1 按性价比给用户推荐旅游产品
  • 10.1.1 数据采集
  • 10.1.2 数据清洗、建模
  • 10.2 通过热力图分析为用户提供出行建议
  • 10.2.1 某旅游网站热门景点爬虫代码(qunaer_sights.py)
  • 10.2.2 提取 CSV 文件中经纬度和销量信息
  • 10.2.3 创建景点门票销量热力地图 HTML 文件
  • 第11章 数据可视化
  • 11.1 matplotlib
  • 11.1.1 画出各省份平均价格、各省份平均成交量柱状图
  • 11.1.2 画出各省份平均成交量折线图、柱状图、箱形图和饼图
  • 11.1.3 画出价格与成交量的散点图
  • 11.2 pyecharts
  • 11.2.1 Echarts 简介
  • 11.2.2 pyecharts 简介
  • 11.2.3 初识 pyecharts,玫瑰相送
  • 11.2.4 pyecharts 基本语法
  • 11.2.5 基于商业分析的 pyecharts 图表绘制
  • 11.2.6 使用 pyecharts 绘制其他图表
  • 11.2.7 pyecharts 和 Jupyter
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。