展开全部

主编推荐语

本书深入数据分析与建模的世界,使用多种方法、工具及算法,提供了丰富的技巧。

内容简介

本书分为三大部分。第 一部分会讲授一些实战技巧,用于读取、写入、清洗、格式化、探索与理解数据;第二部分由一些较深入的主题组成,比如分类、聚类和预测等;第三部分介绍更高深的主题,从图论到自然语言处理,到离散选择模型,再到模拟。

目录

  • 版权信息
  • 推荐序
  • 译者序
  • 前言
  • 致谢
  • 关于作者
  • 关于审稿人
  • 第1章 准备数据
  • 1.1 导论
  • 1.2 使用Python读写CSV/TSV文件
  • 1.3 使用Python读写JSON文件
  • 1.4 使用Python读写Excel文件
  • 1.5 使用Python读写XML文件
  • 1.6 使用pandas检索HTML页面
  • 1.7 存储并检索关系数据库
  • 1.8 存储并检索MongoDB
  • 1.9 使用OpenRefine打开并转换数据
  • 1.10 使用OpenRefine探索数据
  • 1.11 排重
  • 1.12 使用正则表达式与GREL清理数据
  • 1.13 插补缺失值
  • 1.14 将特征规范化、标准化
  • 1.15 分级数据
  • 1.16 编码分类变量
  • 第2章 探索数据
  • 2.1 导论
  • 2.2 生成描述性的统计数据
  • 2.3 探索特征之间的相关性
  • 2.4 可视化特征之间的相互作用
  • 2.5 生成直方图
  • 2.6 创建多变量的图表
  • 2.7 数据取样
  • 2.8 将数据集拆分成训练集、交叉验证集和测试集
  • 第3章 分类技巧
  • 3.1 导论
  • 3.2 测试并比较模型
  • 3.3 朴素贝叶斯分类器
  • 3.4 将逻辑回归作为通用分类器使用
  • 3.5 将支持向量机用作分类引擎
  • 3.6 使用决策树进行分类
  • 3.7 使用随机森林预测订阅者
  • 3.8 使用神经网络对呼叫进行分类
  • 第4章 聚类技巧
  • 4.1 导论
  • 4.2 评估聚类方法的表现
  • 4.3 用k均值算法聚类数据
  • 4.4 为k均值算法找到最优的聚类数
  • 4.5 使用mean shift聚类模型发现聚类
  • 4.6 使用c均值构建模糊聚类模型
  • 4.7 使用层次模型聚类数据
  • 4.8 使用DBSCAN和BIRCH算法发现潜在的订阅者
  • 第5章 降维
  • 5.1 导论
  • 5.2 创建三维散点图,显示主成分
  • 5.3 使用核PCA降维
  • 5.4 用主成分分析找到关键因素
  • 5.5 使用随机PCA在数据中寻找主成分
  • 5.6 使用线性判别分析提取有用的维度
  • 5.7 用kNN分类模型给电话分类时使用多种降维技巧
  • 第6章 回归模型
  • 6.1 导论
  • 6.2 识别并解决数据中的多重共线性
  • 6.3 构建线性回归模型
  • 6.4 使用OLS预测生产的电量
  • 6.5 使用CART估算发电厂生产的电量
  • 6.6 将kNN模型用于回归问题
  • 6.7 将随机森林模型用于回归分析
  • 6.8 使用SVM预测发电厂生产的电量
  • 6.9 训练神经网络,预测发电厂生产的电量
  • 第7章 时间序列技术
  • 7.1 导论
  • 7.2 在Python中如何处理日期对象
  • 7.3 理解时间序列数据
  • 7.4 平滑并转换观测值
  • 7.5 过滤时间序列数据
  • 7.6 移除趋势和季节性
  • 7.7 使用ARMA和ARIMA模型预测未来
  • 第8章 图
  • 8.1 导论
  • 8.2 使用NetworkX在Python中处理图对象
  • 8.3 使用Gephi将图可视化
  • 8.4 识别信用卡信息被盗的用户
  • 8.5 识别谁盗窃了信用卡
  • 第9章 自然语言处理
  • 9.1 导论
  • 9.2 从网络读入原始文本
  • 9.3 标记化和标准化
  • 9.4 识别词类,处理n-gram,识别命名实体
  • 9.5 识别文章主题
  • 9.6 识别句子结构
  • 9.7 根据评论给影片归类
  • 第10章 离散选择模型
  • 10.1 导论
  • 10.2 准备数据集以估算离散选择模型
  • 10.3 估算知名的多项Logit模型
  • 10.4 测试来自无关选项的独立性冲突
  • 10.5 用巢式Logit模型处理IIA冲突
  • 10.6 用混合Logit模型处理复杂的替代模式
  • 第11章 模拟
  • 11.1 导论
  • 11.2 使用SimPy模拟加油站的加油过程
  • 11.3 模拟电动车耗尽电量的场景
  • 11.4 判断羊群面对群狼时是否有团灭的风险
展开全部

评分及书评

评分不足
1个评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。