展开全部

主编推荐语

详细介绍机器学习的理论基础知识,内容由浅入深,循序渐进,适合零基础读者学习。

内容简介

本书是作者多年在数据智能领域中利用机器学习实战经验的理解、归纳和总结。出于“回归事物本质,规律性、系统性地思考问题”“理论为实践服务并且反过来充实理论,为更多人服务”的想法和初心,本书系统地阐述了机器学习理论和工程方法论,并结合实际商业场景落地。

全书分为3部分。

第1部分是机器学习的数学理论理解,这部分不是对于机器学习数学理论的严谨推导和证明,更多是对于理论背后的“到底是什么,为什么要这样做”的通俗理解。尽可能通过对应到日常生活中的现象来进行讲述。

第2部分是机器学习模型、方法及本质,这一部分针对机器学习的方法论及具体的处理过程进行阐述。涉及数据准备、异常值的检测和处理、特征的处理、典型模型的介绍、代价函数、激活函数及模型性能评价等,是本书的核心内容。我们学习知识的主要目的是解决问题,特别是对于企业的从业人员,对在商业实战环境中出现的问题,希望通过机器学习的方式来更好地解决。

第3部分是机器学习实例展示。本书内容系统、选材全面、知识讲述详细、易学易用,兼具实战性和理论性,适合机器学习的初学者与进阶者学习使用。

目录

  • 版权信息
  • 内容简介
  • 作者简介
  • 前言
  • 第1部分 机器学习的数学理论理解
  • 第1讲 这个不确定的世界如何描述
  • 1.1 概率、几率及期望
  • 1.2 概率函数、概率分布函数和概率密度函数
  • 1.3 条件概率、联合概率以及贝叶斯公式
  • 1.4 本讲小结
  • 第2讲 数据的形态描述
  • 2.1 正态分布
  • 2.2 混合高斯分布
  • 2.3 伯努利分布及二项分布
  • 2.4 泊松分布
  • 2.5 指数分布
  • 2.6 幂律分布
  • 2.7 以上分布的总结和联系
  • 2.8 本讲小结
  • 第3讲 信息的数学表达
  • 3.1 自信息
  • 3.2 信息熵
  • 3.3 信息增益
  • 3.4 相对熵
  • 3.5 交叉熵
  • 3.6 基尼指数(不纯度)
  • 3.7 本讲小结
  • 第4讲 随机变量的相关性和重要性
  • 4.1 数值型变量之间的相关性
  • 4.2 类别型变量之间的相关性
  • 4.3 证据权重和信息值
  • 4.4 本讲小结
  • 第5讲 抓住主要矛盾
  • 5.1 主成分分析
  • 5.2 线性判别分析
  • 5.3 奇异值分解
  • 5.4 自编码器
  • 5.5 PCA、SVD和AE是亲戚
  • 5.6 傅里叶变换
  • 5.7 本讲小结
  • 第6讲 采样方法
  • 6.1 拒绝采样
  • 6.2 马尔可夫链蒙特卡罗采样
  • 6.3 Metropolis-Hastings采样
  • 6.4 吉布斯采样
  • 6.5 汤普森采样
  • 6.6 上采样-人工合成数据策略
  • 6.7 本讲小结
  • 第7讲 抬头看路低头拉车的迭代方法
  • 7.1 迭代求解
  • 7.2 梯度下降法
  • 7.3 牛顿法及其改进算法
  • 7.4 Adam(Adaptive Moment Estimation)方法
  • 7.5 本讲小结
  • 第8讲 经典最优化问题求解方法
  • 8.1 最小二乘估计
  • 8.2 最大似然估计
  • 8.3 最大后验概率
  • 8.4 期望最大化方法
  • 8.5 最大熵模型
  • 8.6 本讲小结
  • 第2部分 机器学习模型、方法及本质
  • 第9讲 机器学习的方法论
  • 9.1 总体方法论
  • 9.2 建模分析的一般步骤
  • 9.3 模型和算法
  • 9.4 本讲小结
  • 第10讲 数据准备
  • 10.1 厘清数据来源
  • 10.2 数据的探索性分析
  • 10.3 本讲小结
  • 第11讲 异常检测和处理
  • 11.1 什么是异常值
  • 11.2 异常检测面临的挑战
  • 11.3 异常的种类
  • 11.4 异常检测的应用领域
  • 11.5 异常检测的方法
  • 11.6 本讲小结
  • 第12讲 特征数据的预处理
  • 12.1 特征标准化
  • 12.2 连续变量离散化
  • 12.3 离散型特征处理
  • 12.4 本讲小结
  • 第13讲 特征的选择、提取和构造
  • 13.1 为什么要进行特征的选择、提取和构造
  • 13.2 特征的选择
  • 13.3 特征的提取和构造
  • 13.4 本讲小结
  • 第14讲 机器学习模型——逻辑回归和梯度提升决策树
  • 14.1 逻辑回归
  • 14.2 梯度提升决策树
  • 第15讲 机器学习模型——概率图模型
  • 15.1 概述
  • 15.2 概率图模型族谱及特征
  • 15.3 两个典型的概率图模型
  • 第16讲 机器学习模型——强化学习
  • 16.1 ε贪婪算法
  • 16.2 置信区间上界算法
  • 16.3 汤普森采样
  • 16.4 共性问题
  • 第17讲 探索式学习
  • 17.1 概述
  • 17.2 模拟退火算法
  • 17.3 遗传算法
  • 17.4 蚁群算法
  • 第18讲 机器学习模型——人工神经网络
  • 18.1 神经网络的起源
  • 18.2 神经网络的开端
  • 18.3 神经网络的崛起——反向传播神经网络
  • 18.4 神经网络的突破——深度学习
  • 18.5 神经网络的实质——通用逼近定理
  • 第19讲 基于机器学习的推荐技术
  • 19.1 推荐的作用
  • 19.2 推荐采用的方法
  • 19.3 推荐效果评测指标和维度
  • 第20讲 激活函数
  • 20.1 激活函数的作用
  • 20.2 激活函数的要求
  • 20.3 常用激活函数介绍
  • 第21讲 代价函数
  • 21.1 损失函数、代价函数和目标函数
  • 21.2 经验风险、期望风险和结构风险
  • 21.3 正则化的本质
  • 21.4 常用损失函数
  • 21.5 本讲小结
  • 第22讲 模型效果的衡量方法
  • 22.1 分类问题的模型效果衡量方法
  • 22.2 回归模型中的效果衡量方法
  • 22.3 模型的选择要素——偏差和方差
  • 22.4 交叉验证
  • 22.5 本讲小结
  • 第23讲 机器学习和人工智能展望
  • 23.1 当前对人工智能技术本质的认识
  • 23.2 第三代人工智能的发展方向
  • 23.3 人工智能的小数据、大任务范式
  • 第3部分 机器学习实例展示
  • 第24讲 垃圾邮件判断(朴素贝叶斯分类)
  • 24.1 问题描述
  • 24.2 算法详述
  • 24.3 代码详述
  • 第25讲 客户流失预测(高斯贝叶斯分类)
  • 25.1 问题描述
  • 25.2 算法详述
  • 25.3 代码详述
  • 第26讲 两个特殊硬币的投掷概率(期望最大化方法)
  • 26.1 问题描述
  • 26.2 算法详述
  • 26.3 代码详述
  • 第27讲 信用卡申请评分卡模型(WOE/IV逻辑回归)
  • 27.1 问题描述
  • 27.2 算法详述
  • 27.3 代码详述
  • 第28讲 用户忠诚度变化轨迹预测(隐马尔可夫模型)
  • 28.1 问题描述
  • 28.2 算法详述
  • 28.3 代码详述
  • 第29讲 产品的价格设定(强化学习)
  • 29.1 问题描述
  • 29.2 算法详述
  • 29.3 代码详述
  • 第30讲 数据智能平台
  • 30.1 数据智能包含哪些内容
  • 30.2 产品化的数智平台
  • 30.3 本讲小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。