互联网
类型
可以朗读
语音朗读
86千字
字数
2024-04-01
发行日期
展开全部
主编推荐语
讲解各种类型数据挖掘竞赛的解题思路、方法和技巧。
内容简介
全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始,介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉(图像)、计算机视觉(视频)、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇:理论篇介绍通用的解题流程和关键技术;实战篇选取比较有代表性的赛题,对赛题的优秀方案进行深入分析,并提供方案对应的实现代码。
目录
- 版权信息
- 内容简介
- 编写团队成员
- 前言
- 第1章 数据挖掘竞赛介绍
- 1.1 数据挖掘竞赛的发展
- 1.2 数据挖掘竞赛的意义
- 1.3 竞赛平台介绍
- 1.4 各种竞赛的特点
- 1.5 竞赛常用工具
- 第2章 结构化数据:理论篇
- 2.1 探索性数据分析
- 2.2 数据预处理
- 2.2.1 缺失值
- 2.2.2 异常值
- 2.2.3 内存优化
- 2.3 特征构造
- 2.3.1 时间特征
- 2.3.2 单变量特征
- 2.3.3 组合特征
- 2.3.4 降维/聚类特征
- 2.3.5 目标值相关特征
- 2.3.6 拼表特征
- 2.3.7 时序特征
- 2.4 特征筛选
- 2.4.1 冗余特征过滤
- 2.4.2 无效/低效特征过滤
- 2.4.3 过拟合特征过滤
- 2.5 模型
- 2.5.1 结构化数据常用模型
- 2.5.2 模型超参数优化
- 2.5.3 线下验证
- 2.6 集成学习
- 2.6.1 投票法
- 2.6.2 平均法
- 2.6.3 加权平均法
- 2.6.4 Stacking
- 2.6.5 Blending
- 第3章 结构化数据:实战篇
- 3.1 赛题概览
- 3.2 数据探索
- 3.2.1 标签分布
- 3.2.2 缺失值
- 3.2.3 异常值
- 3.2.4 相关性
- 3.3 优秀方案解读
- 3.3.1 特征工程
- 3.3.2 模型
- 3.3.3 集成学习
- 第4章 自然语言处理:理论篇
- 4.1 探索性数据分析
- 4.1.1 文本词数统计
- 4.1.2 高频词统计
- 4.2 数据预处理
- 4.3 数据增强
- 4.3.1 同义词替换
- 4.3.2 回译
- 4.3.3 文本生成
- 4.3.4 元伪标签
- 4.4 模型
- 4.4.1 NLP竞赛的万金油—BERT
- 4.4.2 常用模型backbone及其特点
- 4.4.3 设计BERT类模型的输入
- 4.4.4 设计BERT类模型的neck
- 4.4.5 设计BERT类模型的输出
- 4.5 模型集成
- 4.6 训练技巧
- 4.6.1 动态验证
- 4.6.2 分层学习率
- 4.6.3 对抗训练
- 4.6.4 使用特殊词处理复杂信息
- 4.6.5 任务内掩码语言建模
- 4.6.6 多样本dropout
- 4.6.7 模型权重初始化
- 4.6.8 动态填充
- 4.6.9 根据文本词数顺序推理
- 4.6.10 梯度检查点
- 4.6.11 拓展模型输入长度限制
- 第5章 自然语言处理:实战篇
- 5.1 赛题背景
- 5.2 数据介绍
- 5.3 评价指标
- 5.4 冠军方案
- 5.4.1 解码网络
- 5.4.2 特征抽取网络
- 5.4.3 掩码预训练
- 5.4.4 训练技巧
- 5.4.5 模型集成
- 第6章 计算机视觉(图像):理论篇
- 6.1 通用流程
- 6.1.1 数据预处理
- 6.1.2 数据增强
- 6.1.3 预训练
- 6.1.4 模型
- 6.1.5 损失函数
- 6.1.6 集成学习
- 6.1.7 通用技巧
- 6.2 分类任务
- 6.2.1 任务介绍及常用模型
- 6.2.2 损失函数
- 6.2.3 常用技巧
- 6.3 分割任务
- 6.3.1 任务介绍及常用模型
- 6.3.2 损失函数
- 6.3.3 常用技巧
- 6.4 检测任务
- 6.4.1 任务介绍及常用模型
- 6.4.2 损失函数
- 6.4.3 常用技巧
- 第7章 计算机视觉(图像):实战篇
- 7.1 竞赛介绍
- 7.2 数据探索
- 7.2.1 数据基本情况
- 7.2.2 类型分布
- 7.2.3 图像分布
- 7.2.4 标注分布
- 7.3 优秀方案解读
- 7.3.1 检测部分
- 7.3.2 分割部分
- 7.4 更多方案
- 第8章 计算机视觉(视频):理论篇
- 8.1 视频数据与图像数据的区别
- 8.2 常用模型
- 8.3 预训练数据集
- 8.4 任务介绍
- 第9章 计算机视觉(视频):实战篇
- 9.1 赛题背景
- 9.2 数据介绍和评价指标
- 9.3 冠军方案
- 第10章 强化学习:理论篇
- 10.1 智能体设计
- 10.1.1 观测输入设计
- 10.1.2 收益设计
- 10.1.3 动作设计
- 10.2 模型设计
- 10.3 算法设计
- 10.3.1 强化学习算法
- 10.3.2 超参数调节
- 10.3.3 训练技巧
- 10.3.4 算法性能评估
- 第11章 强化学习:实战篇
- 11.1 赛题任务
- 11.2 环境介绍
- 11.3 评价指标
- 11.4 冠军方案
展开全部
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。