科技
类型
可以朗读
语音朗读
226千字
字数
2023-05-01
发行日期
展开全部
主编推荐语
普通高等学校数据科学与大数据技术专业精品教材。
内容简介
本书系统地介绍了数据挖掘理论、方法与应用,包括数据特征分析与预处理,经典数据挖掘算法(分类、回归、聚类、关联规则和集成学习等),大数据新常态下催生的数据分析方法(推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析等)等理论与方法。在此基础上,每章均有基于Python语言的实例应用。
本书可以作为高等院校数据科学与大数据技术专业相关课程的教材,以及计算机、软件工程等专业的教材或参考书。高职高专学校相关专业也可选用部分内容开展教学。
目录
- 版权信息
- 内容简介
- 编委会
- 总序
- 第2版前言
- 第1版前言
- 第1章 绪论
- 1.1 数据挖掘的基本概念
- 1.1.1 数据挖掘的概念
- 1.1.2 大数据环境下的数据挖掘
- 1.1.3 数据挖掘的特性
- 1.1.4 数据挖掘的任务和功能
- 1.1.5 数据挖掘的对象
- 1.1.6 数据挖掘的过程
- 1.2 数据挖掘的起源及发展
- 1.3 数据挖掘的常用工具
- 1.3.1 商用工具
- 1.3.2 开源工具
- 1.4 数据挖掘的应用
- 习题
- 参考文献
- 第2章 数据特征分析及预处理
- 2.1 数据类型
- 2.1.1 属性与度量
- 2.1.2 数据集的类型
- 2.2 数据特征分析
- 2.2.1 描述数据集中趋势的度量
- 2.2.2 描述数据离散程度的度量
- 2.2.3 数据相关性分析
- 2.3 数据预处理
- 2.3.1 数据清洗
- 2.3.2 数据集成
- 2.3.3 数据规范化
- 2.3.4 数据规约
- 2.3.5 数据离散化
- 2.4 数据的相似性
- 2.4.1 数值属性的相似性度量
- 2.4.2 标称属性的相似性度量
- 2.4.3 组合异种属性的相似性度量
- 2.4.4 文本的相似性度量
- 2.4.5 离散序列的相似性度量
- 习题
- 参考文献
- 第3章 分类
- 3.1 分类概述
- 3.1.1 分类的基本概念
- 3.1.2 分类的过程
- 3.1.3 分类器性能的评估方法
- 3.2 决策树
- 3.2.1 决策树的基本概念
- 3.2.2 决策树的用途和特性
- 3.2.3 决策树的工作原理
- 3.2.4 决策树的构建步骤
- 3.2.5 决策树算法原理
- 3.3 贝叶斯分类
- 3.3.1 贝叶斯定理
- 3.3.2 朴素贝叶斯分类
- 3.3.3 贝叶斯分析
- 3.3.4 贝叶斯决策
- 3.3.5 贝叶斯估计
- 3.4 支持向量机
- 3.4.1 支持向量机的主要思想
- 3.4.2 支持向量机的基础理论
- 3.4.3 支持向量机的原理
- 3.5 实战:Python支持向量机分类
- 习题
- 参考文献
- 第4章 回归
- 4.1 回归的基本概念
- 4.1.1 回归分析的定义
- 4.1.2 回归分析的步骤
- 4.1.3 回归分析要注意的问题
- 4.2 一元回归分析
- 4.2.1 一元回归分析的模型设定
- 4.2.2 回归参数的最小二乘估计
- 4.2.3 基本假设下OLS估计的统计性质
- 4.2.4 误差方差估计
- 4.2.5 回归系数检验(t检验)
- 4.2.6 拟合优度和模型检验(F检验)
- 4.3 多元线性回归分析
- 4.3.1 多元线性回归模型
- 4.3.2 多元线性回归模型的假定
- 4.3.3 多元线性回归模型的参数估计
- 4.3.4 显著性检验
- 4.3.5 回归变量的选择与逐步回归
- 4.4 逻辑回归分析
- 4.4.1 逻辑回归模型
- 4.4.2 logit变换
- 4.4.3 估计回归系数
- 4.4.4 Logistic分布
- 4.4.5 列联表的Logistic回归模型
- 4.5 其他回归分析
- 4.5.1 多项式回归
- 4.5.2 逐步回归
- 4.5.3 岭回归
- 4.5.4 套索回归
- 4.5.5 弹性网络
- 4.6 实战:获得最大有效率时的药物用量
- 习题
- 参考文献
- 第5章 聚类
- 5.1 聚类基本概念
- 5.2 划分聚类方法
- 5.2.1 k-平均算法
- 5.2.2 k-中心点算法
- 5.3 层次聚类方法
- 5.3.1 层次聚类方法的分类
- 5.3.2 BIRCH算法
- 5.4 密度聚类方法
- 5.5 实战:Python聚类分析
- 5.5.1 Python实现k-平均划分聚类
- 5.5.2 Python实现BIRCH层次聚类
- 5.5.3 Python实现DBSCAN密度聚类
- 习题
- 参考文献
- 第6章 关联规则
- 6.1 基本概念
- 6.1.1 啤酒与尿布的经典案例
- 6.1.2 关联规则的概念
- 6.1.3 频繁项集的产生
- 6.2 Apriori算法:通过限制候选产生发现频繁项集
- 6.2.1 Apriori算法的频繁项集产生
- 6.2.2 Apriori算法描述
- 6.3 FP-growth算法
- 6.3.1 构造FP树
- 6.3.2 挖掘FP树
- 6.3.3 FP-growth算法
- 6.4 其他关联规则算法
- 6.4.1 约束性关联规则
- 6.4.2 增量式关联规则
- 6.4.3 多层关联规则
- 6.5 实战:购物篮关联规则挖掘
- 6.5.1 背景与挖掘目标
- 6.5.2 分析方法与过程
- 6.5.3 总结
- 习题
- 参考文献
- 第7章 集成学习
- 7.1 集成学习的概念
- 7.1.1 集成学习的构建
- 7.1.2 集成学习的优势
- 7.2 Bagging算法与随机森林算法
- 7.2.1 Bagging算法基本思想
- 7.2.2 Bagging算法流程
- 7.2.3 随机森林算法
- 7.3 Boosting算法
- 7.3.1 Boosting算法流程
- 7.3.2 Boosting系列算法
- 7.4 结合策略
- 7.4.1 投票方法
- 7.4.2 叠加方法
- 7.5 多样性
- 7.5.1 多样性的概念
- 7.5.2 多样性的作用
- 7.5.3 多样性的度量
- 7.5.4 多样性的构建
- 7.6 实战案例
- 7.6.1 鸢尾花数据集
- 7.6.2 集成学习算法
- 7.6.3 集成学习在鸢尾花数据集上的应用
- 7.7 本章小结
- 习题
- 参考文献
- 第8章 推荐系统
- 8.1 推荐系统概述
- 8.1.1 什么是推荐系统
- 8.1.2 推荐系统评测指标
- 8.1.3 推荐系统中的冷启动
- 8.2 基于内容的推荐
- 8.2.1 物品表示
- 8.2.2 物品相似度
- 8.2.3 用户对物品的评分
- 8.2.4 基于向量空间模型的推荐
- 8.3 协同过滤推荐
- 8.3.1 协同过滤的基本概念
- 8.3.2 基于用户的协同过滤
- 8.3.3 基于物品的协同过滤
- 8.3.4 隐语义模型和矩阵因子分解模型
- 8.4 基于标签的推荐
- 8.4.1 数据标注与关键词提取
- 8.4.2 标签分类
- 8.4.3 基于标签的推荐系统原理
- 8.5 实战:搭建一个电影推荐系统
- 8.5.1 数据准备与导入
- 8.5.2 电影热度值计算
- 8.5.3 电影相似度计算
- 8.5.4 指定标签下的电影统计
- 习题
- 参考文献
- 第9章 互联网数据挖掘
- 9.1 链接分析与网页排序
- 9.1.1 PageRank
- 9.1.2 PageRank的快速计算
- 9.1.3 面向主题的PageRank
- 9.1.4 时间序列分析
- 9.1.5 排序背后的机理探讨
- 9.1.6 重新思考时间序列
- 9.2 互联网信息抽取
- 9.2.1 互联网信息深度挖掘概述
- 9.2.2 典型应用模型构建
- 9.2.3 挖掘、存储与网络技术分析
- 9.2.4 数据信息采集管理
- 9.2.5 信息抽取方法与知识发现
- 9.2.6 智能决策
- 9.2.7 行业案例研究
- 9.3 日志挖掘与查询分析
- 9.3.1 互联网日志分析概述
- 9.3.2 挖掘分析技术方法
- 9.3.3 工具比较
- 9.3.4 海量数据挖掘过程展现与分析
- 9.3.5 行业应用举例
- 9.4 Python实战案例
- 9.4.1 PageRank Python实现
- 9.4.2 跨境电商运营潜在市场选择
- 9.4.3 天池“双11”日志数据挖掘示例
- 习题
- 参考文献
- 附录A 大数据和人工智能实验环境
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。