科技
类型
可以朗读
语音朗读
187千字
字数
2023-05-01
发行日期
展开全部
主编推荐语
详细介绍机器学习的理论基础知识,内容由浅入深,循序渐进,适合零基础读者学习。
内容简介
本书是作者多年在数据智能领域中利用机器学习实战经验的理解、归纳和总结。出于“回归事物本质,规律性、系统性地思考问题”“理论为实践服务并且反过来充实理论,为更多人服务”的想法和初心,本书系统地阐述了机器学习理论和工程方法论,并结合实际商业场景落地。
全书分为3部分。
第1部分是机器学习的数学理论理解,这部分不是对于机器学习数学理论的严谨推导和证明,更多是对于理论背后的“到底是什么,为什么要这样做”的通俗理解。尽可能通过对应到日常生活中的现象来进行讲述。
第2部分是机器学习模型、方法及本质,这一部分针对机器学习的方法论及具体的处理过程进行阐述。涉及数据准备、异常值的检测和处理、特征的处理、典型模型的介绍、代价函数、激活函数及模型性能评价等,是本书的核心内容。我们学习知识的主要目的是解决问题,特别是对于企业的从业人员,对在商业实战环境中出现的问题,希望通过机器学习的方式来更好地解决。
第3部分是机器学习实例展示。本书内容系统、选材全面、知识讲述详细、易学易用,兼具实战性和理论性,适合机器学习的初学者与进阶者学习使用。
目录
- 版权信息
- 内容简介
- 作者简介
- 前言
- 第1部分 机器学习的数学理论理解
- 第1讲 这个不确定的世界如何描述
- 1.1 概率、几率及期望
- 1.2 概率函数、概率分布函数和概率密度函数
- 1.3 条件概率、联合概率以及贝叶斯公式
- 1.4 本讲小结
- 第2讲 数据的形态描述
- 2.1 正态分布
- 2.2 混合高斯分布
- 2.3 伯努利分布及二项分布
- 2.4 泊松分布
- 2.5 指数分布
- 2.6 幂律分布
- 2.7 以上分布的总结和联系
- 2.8 本讲小结
- 第3讲 信息的数学表达
- 3.1 自信息
- 3.2 信息熵
- 3.3 信息增益
- 3.4 相对熵
- 3.5 交叉熵
- 3.6 基尼指数(不纯度)
- 3.7 本讲小结
- 第4讲 随机变量的相关性和重要性
- 4.1 数值型变量之间的相关性
- 4.2 类别型变量之间的相关性
- 4.3 证据权重和信息值
- 4.4 本讲小结
- 第5讲 抓住主要矛盾
- 5.1 主成分分析
- 5.2 线性判别分析
- 5.3 奇异值分解
- 5.4 自编码器
- 5.5 PCA、SVD和AE是亲戚
- 5.6 傅里叶变换
- 5.7 本讲小结
- 第6讲 采样方法
- 6.1 拒绝采样
- 6.2 马尔可夫链蒙特卡罗采样
- 6.3 Metropolis-Hastings采样
- 6.4 吉布斯采样
- 6.5 汤普森采样
- 6.6 上采样-人工合成数据策略
- 6.7 本讲小结
- 第7讲 抬头看路低头拉车的迭代方法
- 7.1 迭代求解
- 7.2 梯度下降法
- 7.3 牛顿法及其改进算法
- 7.4 Adam(Adaptive Moment Estimation)方法
- 7.5 本讲小结
- 第8讲 经典最优化问题求解方法
- 8.1 最小二乘估计
- 8.2 最大似然估计
- 8.3 最大后验概率
- 8.4 期望最大化方法
- 8.5 最大熵模型
- 8.6 本讲小结
- 第2部分 机器学习模型、方法及本质
- 第9讲 机器学习的方法论
- 9.1 总体方法论
- 9.2 建模分析的一般步骤
- 9.3 模型和算法
- 9.4 本讲小结
- 第10讲 数据准备
- 10.1 厘清数据来源
- 10.2 数据的探索性分析
- 10.3 本讲小结
- 第11讲 异常检测和处理
- 11.1 什么是异常值
- 11.2 异常检测面临的挑战
- 11.3 异常的种类
- 11.4 异常检测的应用领域
- 11.5 异常检测的方法
- 11.6 本讲小结
- 第12讲 特征数据的预处理
- 12.1 特征标准化
- 12.2 连续变量离散化
- 12.3 离散型特征处理
- 12.4 本讲小结
- 第13讲 特征的选择、提取和构造
- 13.1 为什么要进行特征的选择、提取和构造
- 13.2 特征的选择
- 13.3 特征的提取和构造
- 13.4 本讲小结
- 第14讲 机器学习模型——逻辑回归和梯度提升决策树
- 14.1 逻辑回归
- 14.2 梯度提升决策树
- 第15讲 机器学习模型——概率图模型
- 15.1 概述
- 15.2 概率图模型族谱及特征
- 15.3 两个典型的概率图模型
- 第16讲 机器学习模型——强化学习
- 16.1 ε贪婪算法
- 16.2 置信区间上界算法
- 16.3 汤普森采样
- 16.4 共性问题
- 第17讲 探索式学习
- 17.1 概述
- 17.2 模拟退火算法
- 17.3 遗传算法
- 17.4 蚁群算法
- 第18讲 机器学习模型——人工神经网络
- 18.1 神经网络的起源
- 18.2 神经网络的开端
- 18.3 神经网络的崛起——反向传播神经网络
- 18.4 神经网络的突破——深度学习
- 18.5 神经网络的实质——通用逼近定理
- 第19讲 基于机器学习的推荐技术
- 19.1 推荐的作用
- 19.2 推荐采用的方法
- 19.3 推荐效果评测指标和维度
- 第20讲 激活函数
- 20.1 激活函数的作用
- 20.2 激活函数的要求
- 20.3 常用激活函数介绍
- 第21讲 代价函数
- 21.1 损失函数、代价函数和目标函数
- 21.2 经验风险、期望风险和结构风险
- 21.3 正则化的本质
- 21.4 常用损失函数
- 21.5 本讲小结
- 第22讲 模型效果的衡量方法
- 22.1 分类问题的模型效果衡量方法
- 22.2 回归模型中的效果衡量方法
- 22.3 模型的选择要素——偏差和方差
- 22.4 交叉验证
- 22.5 本讲小结
- 第23讲 机器学习和人工智能展望
- 23.1 当前对人工智能技术本质的认识
- 23.2 第三代人工智能的发展方向
- 23.3 人工智能的小数据、大任务范式
- 第3部分 机器学习实例展示
- 第24讲 垃圾邮件判断(朴素贝叶斯分类)
- 24.1 问题描述
- 24.2 算法详述
- 24.3 代码详述
- 第25讲 客户流失预测(高斯贝叶斯分类)
- 25.1 问题描述
- 25.2 算法详述
- 25.3 代码详述
- 第26讲 两个特殊硬币的投掷概率(期望最大化方法)
- 26.1 问题描述
- 26.2 算法详述
- 26.3 代码详述
- 第27讲 信用卡申请评分卡模型(WOE/IV逻辑回归)
- 27.1 问题描述
- 27.2 算法详述
- 27.3 代码详述
- 第28讲 用户忠诚度变化轨迹预测(隐马尔可夫模型)
- 28.1 问题描述
- 28.2 算法详述
- 28.3 代码详述
- 第29讲 产品的价格设定(强化学习)
- 29.1 问题描述
- 29.2 算法详述
- 29.3 代码详述
- 第30讲 数据智能平台
- 30.1 数据智能包含哪些内容
- 30.2 产品化的数智平台
- 30.3 本讲小结
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。