展开全部

主编推荐语

从实践的角度,以案例为牵引,介绍数据挖掘的方法与技术。

内容简介

数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。

本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。

目录

  • 版权信息
  • 前言
  • 第1章 绪论
  • 1.1 数据挖掘技术的由来
  • 1.2 数据挖掘的分类
  • 1.2.1 关联规则挖掘
  • 1.2.2 监督式机器学习
  • 1.2.3 非监督式机器学习
  • 1.3 Python的安装步骤
  • 1.3.1 Python环境的配置
  • 1.3.2 PyCharm的安装
  • 1.4 常见的数据集
  • 1.4.1 鸢尾花数据集
  • 1.4.2 员工离职预测数据集
  • 1.4.3 泰坦尼克号灾难预测数据集
  • 1.4.4 PM2.5空气质量预测数据集
  • 1.5 本章小结
  • 第2章 分类
  • 2.1 分类的概念
  • 2.2 分类中的训练集与测试集
  • 2.3 分类的过程及验证方法
  • 2.3.1 准确率
  • 2.3.2 k折交叉验证
  • 2.4 贝叶斯分类的编程实践
  • 2.4.1 鸢尾花数据集的贝叶斯分类
  • 2.4.2 基于贝叶斯分类的员工离职预测
  • 2.5 本章小结
  • 第3章 数据的特征选择
  • 3.1 直方图
  • 3.1.1 直方图可视化
  • 3.1.2 直方图特征选择
  • 3.2 直方图与柱状图的差异
  • 3.3 特征选择实践
  • 3.4 本章小结
  • 第4章 数据预处理之数据清洗
  • 4.1 案例概述
  • 4.2 缺失值处理
  • 4.2.1 缺失值处理概述
  • 4.2.2 缺失值处理实例
  • 4.3 噪声数据处理
  • 4.3.1 正态分布噪声数据检测
  • 4.3.2 用箱线图检测噪声数据
  • 4.4 数据预处理案例实践
  • 4.4.1 问题
  • 4.4.2 解决方法
  • 4.4.3 实践结论
  • 4.5 本章小结
  • 第5章 数据预处理之转换
  • 5.1 数据的数值化处理
  • 5.1.1 顺序编码
  • 5.1.2 二进制编码
  • 5.2 数据规范化
  • 5.2.1 最小-最大规范化
  • 5.2.2 z分数规范化
  • 5.2.3 小数定标规范化
  • 5.3 本章小结
  • 第6章 数据预处理之数据降维
  • 6.1 散点图可视化分析
  • 6.2 主成分分析
  • 6.3 本章小结
  • 第7章 不平衡数据分类
  • 7.1 不平衡数据分类问题的特征
  • 7.1.1 数据稀缺问题
  • 7.1.2 噪声问题
  • 7.1.3 决策面偏移问题
  • 7.1.4 评价标准问题
  • 7.2 重采样方法
  • 7.2.1 上采样
  • 7.2.2 对上采样方法的改进
  • 7.2.3 下采样
  • 7.2.4 对下采样方法的改进
  • 7.2.5 不平衡问题的其他处理方式
  • 7.3 不平衡数据分类实践
  • 7.4 本章小结
  • 第8章 回归分析
  • 8.1 线性回归
  • 8.1.1 一元线性回归
  • 8.1.2 多元线性回归
  • 8.2 回归分析检测
  • 8.2.1 正态分布可能性检测
  • 8.2.2 线性分布可能性检测
  • 8.2.3 log转换后的分布
  • 8.3 回归预测案例实践
  • 8.3.1 案例背景
  • 8.3.2 代码实现
  • 8.4 本章小结
  • 第9章 聚类分析
  • 9.1 k均值聚类
  • 9.1.1 算法的步骤
  • 9.1.2 代码实现
  • 9.2 层次聚类
  • 9.2.1 算法的步骤
  • 9.2.2 代码实现
  • 9.3 密度聚类
  • 9.3.1 算法的步骤
  • 9.3.2 代码实现
  • 9.4 本章小结
  • 第10章 关联分析
  • 10.1 Apriori算法
  • 10.2 关联分析案例实践
  • 10.2.1 案例背景
  • 10.2.2 案例的数据集
  • 10.2.3 代码实现
  • 10.2.4 运行结果
  • 10.3 提升Apriori算法性能的方法
  • 10.4 本章小结
  • 第11章 KNN分类
  • 11.1 KNN算法的步骤
  • 11.2 KNeighborsClassifier函数
  • 11.3 KNN的代码实现
  • 11.4 结果分析
  • 11.5 KNN案例实践
  • 11.5.1 案例分析
  • 11.5.2 案例实现
  • 11.5.3 运行结果
  • 11.6 本章小结
  • 第12章 支持向量机
  • 12.1 支持向量机的可视化分析
  • 12.2 SVM的代码实现
  • 12.2.1 鸢尾花数据分类
  • 12.2.2 新闻文本数据分类
  • 12.3 本章小结
  • 第13章 神经网络分类
  • 13.1 多层人工神经网络
  • 13.2 多层人工神经网络的代码实现
  • 13.3 神经网络分类案例实践
  • 13.3.1 案例背景
  • 13.3.2 数据说明
  • 13.3.3 代码实现
  • 13.4 本章小结
  • 第14章 集成学习
  • 14.1 Bagging方法
  • 14.2 随机森林
  • 14.3 Adaboost
  • 14.4 GBDT
  • 14.4.1 GradientBoostingClassifier函数
  • 14.4.2 GradientBoostingRegressor函数
  • 14.5 XGBoost
  • 14.5.1 XGBClassifier函数
  • 14.5.2 XGBRegressor函数
  • 14.6 房价预测案例实践
  • 14.7 点击欺骗预测案例实践
  • 14.7.1 案例背景
  • 14.7.2 数据分析
  • 14.7.3 模型优化
  • 14.8 本章小结
  • 第15章 综合案例实践
  • 15.1 员工离职预测综合案例
  • 15.1.1 数据总览
  • 15.1.2 数据预处理
  • 15.1.3 模型构建与比较
  • 15.2 二手车交易价格预测综合案例
  • 15.2.1 数据集简介
  • 15.2.2 数据总览
  • 15.2.3 数据预处理
  • 15.2.4 查看变量分布
  • 15.2.5 查看变量间的关系
  • 15.2.6 查看变量间的分布关系
  • 15.2.7 分析汽车注册月份与价格的关系
  • 15.2.8 特征工程
  • 15.2.9 模型构建与训练
  • 15.3 信息抽取综合案例
  • 15.3.1 案例背景
  • 15.3.2 数据集简介
  • 15.3.3 模型的构建与训练
  • 15.3.4 模型评价
  • 15.4 学术网络节点分类
  • 15.4.1 数据集简介
  • 15.4.2 数据总览
  • 15.4.3 模型构建
  • 15.4.4 配置参数
  • 15.4.5 训练数据
  • 15.4.6 模型评价
  • 推荐阅读
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。