互联网
类型
可以朗读
语音朗读
55千字
字数
2025-01-01
发行日期
展开全部
主编推荐语
从实践的角度,以案例为牵引,介绍数据挖掘的方法与技术。
内容简介
数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。
本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。
目录
- 版权信息
- 前言
- 第1章 绪论
- 1.1 数据挖掘技术的由来
- 1.2 数据挖掘的分类
- 1.2.1 关联规则挖掘
- 1.2.2 监督式机器学习
- 1.2.3 非监督式机器学习
- 1.3 Python的安装步骤
- 1.3.1 Python环境的配置
- 1.3.2 PyCharm的安装
- 1.4 常见的数据集
- 1.4.1 鸢尾花数据集
- 1.4.2 员工离职预测数据集
- 1.4.3 泰坦尼克号灾难预测数据集
- 1.4.4 PM2.5空气质量预测数据集
- 1.5 本章小结
- 第2章 分类
- 2.1 分类的概念
- 2.2 分类中的训练集与测试集
- 2.3 分类的过程及验证方法
- 2.3.1 准确率
- 2.3.2 k折交叉验证
- 2.4 贝叶斯分类的编程实践
- 2.4.1 鸢尾花数据集的贝叶斯分类
- 2.4.2 基于贝叶斯分类的员工离职预测
- 2.5 本章小结
- 第3章 数据的特征选择
- 3.1 直方图
- 3.1.1 直方图可视化
- 3.1.2 直方图特征选择
- 3.2 直方图与柱状图的差异
- 3.3 特征选择实践
- 3.4 本章小结
- 第4章 数据预处理之数据清洗
- 4.1 案例概述
- 4.2 缺失值处理
- 4.2.1 缺失值处理概述
- 4.2.2 缺失值处理实例
- 4.3 噪声数据处理
- 4.3.1 正态分布噪声数据检测
- 4.3.2 用箱线图检测噪声数据
- 4.4 数据预处理案例实践
- 4.4.1 问题
- 4.4.2 解决方法
- 4.4.3 实践结论
- 4.5 本章小结
- 第5章 数据预处理之转换
- 5.1 数据的数值化处理
- 5.1.1 顺序编码
- 5.1.2 二进制编码
- 5.2 数据规范化
- 5.2.1 最小-最大规范化
- 5.2.2 z分数规范化
- 5.2.3 小数定标规范化
- 5.3 本章小结
- 第6章 数据预处理之数据降维
- 6.1 散点图可视化分析
- 6.2 主成分分析
- 6.3 本章小结
- 第7章 不平衡数据分类
- 7.1 不平衡数据分类问题的特征
- 7.1.1 数据稀缺问题
- 7.1.2 噪声问题
- 7.1.3 决策面偏移问题
- 7.1.4 评价标准问题
- 7.2 重采样方法
- 7.2.1 上采样
- 7.2.2 对上采样方法的改进
- 7.2.3 下采样
- 7.2.4 对下采样方法的改进
- 7.2.5 不平衡问题的其他处理方式
- 7.3 不平衡数据分类实践
- 7.4 本章小结
- 第8章 回归分析
- 8.1 线性回归
- 8.1.1 一元线性回归
- 8.1.2 多元线性回归
- 8.2 回归分析检测
- 8.2.1 正态分布可能性检测
- 8.2.2 线性分布可能性检测
- 8.2.3 log转换后的分布
- 8.3 回归预测案例实践
- 8.3.1 案例背景
- 8.3.2 代码实现
- 8.4 本章小结
- 第9章 聚类分析
- 9.1 k均值聚类
- 9.1.1 算法的步骤
- 9.1.2 代码实现
- 9.2 层次聚类
- 9.2.1 算法的步骤
- 9.2.2 代码实现
- 9.3 密度聚类
- 9.3.1 算法的步骤
- 9.3.2 代码实现
- 9.4 本章小结
- 第10章 关联分析
- 10.1 Apriori算法
- 10.2 关联分析案例实践
- 10.2.1 案例背景
- 10.2.2 案例的数据集
- 10.2.3 代码实现
- 10.2.4 运行结果
- 10.3 提升Apriori算法性能的方法
- 10.4 本章小结
- 第11章 KNN分类
- 11.1 KNN算法的步骤
- 11.2 KNeighborsClassifier函数
- 11.3 KNN的代码实现
- 11.4 结果分析
- 11.5 KNN案例实践
- 11.5.1 案例分析
- 11.5.2 案例实现
- 11.5.3 运行结果
- 11.6 本章小结
- 第12章 支持向量机
- 12.1 支持向量机的可视化分析
- 12.2 SVM的代码实现
- 12.2.1 鸢尾花数据分类
- 12.2.2 新闻文本数据分类
- 12.3 本章小结
- 第13章 神经网络分类
- 13.1 多层人工神经网络
- 13.2 多层人工神经网络的代码实现
- 13.3 神经网络分类案例实践
- 13.3.1 案例背景
- 13.3.2 数据说明
- 13.3.3 代码实现
- 13.4 本章小结
- 第14章 集成学习
- 14.1 Bagging方法
- 14.2 随机森林
- 14.3 Adaboost
- 14.4 GBDT
- 14.4.1 GradientBoostingClassifier函数
- 14.4.2 GradientBoostingRegressor函数
- 14.5 XGBoost
- 14.5.1 XGBClassifier函数
- 14.5.2 XGBRegressor函数
- 14.6 房价预测案例实践
- 14.7 点击欺骗预测案例实践
- 14.7.1 案例背景
- 14.7.2 数据分析
- 14.7.3 模型优化
- 14.8 本章小结
- 第15章 综合案例实践
- 15.1 员工离职预测综合案例
- 15.1.1 数据总览
- 15.1.2 数据预处理
- 15.1.3 模型构建与比较
- 15.2 二手车交易价格预测综合案例
- 15.2.1 数据集简介
- 15.2.2 数据总览
- 15.2.3 数据预处理
- 15.2.4 查看变量分布
- 15.2.5 查看变量间的关系
- 15.2.6 查看变量间的分布关系
- 15.2.7 分析汽车注册月份与价格的关系
- 15.2.8 特征工程
- 15.2.9 模型构建与训练
- 15.3 信息抽取综合案例
- 15.3.1 案例背景
- 15.3.2 数据集简介
- 15.3.3 模型的构建与训练
- 15.3.4 模型评价
- 15.4 学术网络节点分类
- 15.4.1 数据集简介
- 15.4.2 数据总览
- 15.4.3 模型构建
- 15.4.4 配置参数
- 15.4.5 训练数据
- 15.4.6 模型评价
- 推荐阅读
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。