科技
类型
可以朗读
语音朗读
130千字
字数
2018-06-01
发行日期
展开全部
主编推荐语
本书深入数据分析与建模的世界,使用多种方法、工具及算法,提供了丰富的技巧。
内容简介
本书分为三大部分。第 一部分会讲授一些实战技巧,用于读取、写入、清洗、格式化、探索与理解数据;第二部分由一些较深入的主题组成,比如分类、聚类和预测等;第三部分介绍更高深的主题,从图论到自然语言处理,到离散选择模型,再到模拟。
目录
- 版权信息
- 推荐序
- 译者序
- 前言
- 致谢
- 关于作者
- 关于审稿人
- 第1章 准备数据
- 1.1 导论
- 1.2 使用Python读写CSV/TSV文件
- 1.3 使用Python读写JSON文件
- 1.4 使用Python读写Excel文件
- 1.5 使用Python读写XML文件
- 1.6 使用pandas检索HTML页面
- 1.7 存储并检索关系数据库
- 1.8 存储并检索MongoDB
- 1.9 使用OpenRefine打开并转换数据
- 1.10 使用OpenRefine探索数据
- 1.11 排重
- 1.12 使用正则表达式与GREL清理数据
- 1.13 插补缺失值
- 1.14 将特征规范化、标准化
- 1.15 分级数据
- 1.16 编码分类变量
- 第2章 探索数据
- 2.1 导论
- 2.2 生成描述性的统计数据
- 2.3 探索特征之间的相关性
- 2.4 可视化特征之间的相互作用
- 2.5 生成直方图
- 2.6 创建多变量的图表
- 2.7 数据取样
- 2.8 将数据集拆分成训练集、交叉验证集和测试集
- 第3章 分类技巧
- 3.1 导论
- 3.2 测试并比较模型
- 3.3 朴素贝叶斯分类器
- 3.4 将逻辑回归作为通用分类器使用
- 3.5 将支持向量机用作分类引擎
- 3.6 使用决策树进行分类
- 3.7 使用随机森林预测订阅者
- 3.8 使用神经网络对呼叫进行分类
- 第4章 聚类技巧
- 4.1 导论
- 4.2 评估聚类方法的表现
- 4.3 用k均值算法聚类数据
- 4.4 为k均值算法找到最优的聚类数
- 4.5 使用mean shift聚类模型发现聚类
- 4.6 使用c均值构建模糊聚类模型
- 4.7 使用层次模型聚类数据
- 4.8 使用DBSCAN和BIRCH算法发现潜在的订阅者
- 第5章 降维
- 5.1 导论
- 5.2 创建三维散点图,显示主成分
- 5.3 使用核PCA降维
- 5.4 用主成分分析找到关键因素
- 5.5 使用随机PCA在数据中寻找主成分
- 5.6 使用线性判别分析提取有用的维度
- 5.7 用kNN分类模型给电话分类时使用多种降维技巧
- 第6章 回归模型
- 6.1 导论
- 6.2 识别并解决数据中的多重共线性
- 6.3 构建线性回归模型
- 6.4 使用OLS预测生产的电量
- 6.5 使用CART估算发电厂生产的电量
- 6.6 将kNN模型用于回归问题
- 6.7 将随机森林模型用于回归分析
- 6.8 使用SVM预测发电厂生产的电量
- 6.9 训练神经网络,预测发电厂生产的电量
- 第7章 时间序列技术
- 7.1 导论
- 7.2 在Python中如何处理日期对象
- 7.3 理解时间序列数据
- 7.4 平滑并转换观测值
- 7.5 过滤时间序列数据
- 7.6 移除趋势和季节性
- 7.7 使用ARMA和ARIMA模型预测未来
- 第8章 图
- 8.1 导论
- 8.2 使用NetworkX在Python中处理图对象
- 8.3 使用Gephi将图可视化
- 8.4 识别信用卡信息被盗的用户
- 8.5 识别谁盗窃了信用卡
- 第9章 自然语言处理
- 9.1 导论
- 9.2 从网络读入原始文本
- 9.3 标记化和标准化
- 9.4 识别词类,处理n-gram,识别命名实体
- 9.5 识别文章主题
- 9.6 识别句子结构
- 9.7 根据评论给影片归类
- 第10章 离散选择模型
- 10.1 导论
- 10.2 准备数据集以估算离散选择模型
- 10.3 估算知名的多项Logit模型
- 10.4 测试来自无关选项的独立性冲突
- 10.5 用巢式Logit模型处理IIA冲突
- 10.6 用混合Logit模型处理复杂的替代模式
- 第11章 模拟
- 11.1 导论
- 11.2 使用SimPy模拟加油站的加油过程
- 11.3 模拟电动车耗尽电量的场景
- 11.4 判断羊群面对群狼时是否有团灭的风险
展开全部
出版方
机械工业出版社有限公司
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。