展开全部

主编推荐语

讲解各种类型数据挖掘竞赛的解题思路、方法和技巧。

内容简介

全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始,介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉(图像)、计算机视觉(视频)、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇:理论篇介绍通用的解题流程和关键技术;实战篇选取比较有代表性的赛题,对赛题的优秀方案进行深入分析,并提供方案对应的实现代码。

目录

  • 版权信息
  • 内容简介
  • 编写团队成员
  • 前言
  • 第1章 数据挖掘竞赛介绍
  • 1.1 数据挖掘竞赛的发展
  • 1.2 数据挖掘竞赛的意义
  • 1.3 竞赛平台介绍
  • 1.4 各种竞赛的特点
  • 1.5 竞赛常用工具
  • 第2章 结构化数据:理论篇
  • 2.1 探索性数据分析
  • 2.2 数据预处理
  • 2.2.1 缺失值
  • 2.2.2 异常值
  • 2.2.3 内存优化
  • 2.3 特征构造
  • 2.3.1 时间特征
  • 2.3.2 单变量特征
  • 2.3.3 组合特征
  • 2.3.4 降维/聚类特征
  • 2.3.5 目标值相关特征
  • 2.3.6 拼表特征
  • 2.3.7 时序特征
  • 2.4 特征筛选
  • 2.4.1 冗余特征过滤
  • 2.4.2 无效/低效特征过滤
  • 2.4.3 过拟合特征过滤
  • 2.5 模型
  • 2.5.1 结构化数据常用模型
  • 2.5.2 模型超参数优化
  • 2.5.3 线下验证
  • 2.6 集成学习
  • 2.6.1 投票法
  • 2.6.2 平均法
  • 2.6.3 加权平均法
  • 2.6.4 Stacking
  • 2.6.5 Blending
  • 第3章 结构化数据:实战篇
  • 3.1 赛题概览
  • 3.2 数据探索
  • 3.2.1 标签分布
  • 3.2.2 缺失值
  • 3.2.3 异常值
  • 3.2.4 相关性
  • 3.3 优秀方案解读
  • 3.3.1 特征工程
  • 3.3.2 模型
  • 3.3.3 集成学习
  • 第4章 自然语言处理:理论篇
  • 4.1 探索性数据分析
  • 4.1.1 文本词数统计
  • 4.1.2 高频词统计
  • 4.2 数据预处理
  • 4.3 数据增强
  • 4.3.1 同义词替换
  • 4.3.2 回译
  • 4.3.3 文本生成
  • 4.3.4 元伪标签
  • 4.4 模型
  • 4.4.1 NLP竞赛的万金油—BERT
  • 4.4.2 常用模型backbone及其特点
  • 4.4.3 设计BERT类模型的输入
  • 4.4.4 设计BERT类模型的neck
  • 4.4.5 设计BERT类模型的输出
  • 4.5 模型集成
  • 4.6 训练技巧
  • 4.6.1 动态验证
  • 4.6.2 分层学习率
  • 4.6.3 对抗训练
  • 4.6.4 使用特殊词处理复杂信息
  • 4.6.5 任务内掩码语言建模
  • 4.6.6 多样本dropout
  • 4.6.7 模型权重初始化
  • 4.6.8 动态填充
  • 4.6.9 根据文本词数顺序推理
  • 4.6.10 梯度检查点
  • 4.6.11 拓展模型输入长度限制
  • 第5章 自然语言处理:实战篇
  • 5.1 赛题背景
  • 5.2 数据介绍
  • 5.3 评价指标
  • 5.4 冠军方案
  • 5.4.1 解码网络
  • 5.4.2 特征抽取网络
  • 5.4.3 掩码预训练
  • 5.4.4 训练技巧
  • 5.4.5 模型集成
  • 第6章 计算机视觉(图像):理论篇
  • 6.1 通用流程
  • 6.1.1 数据预处理
  • 6.1.2 数据增强
  • 6.1.3 预训练
  • 6.1.4 模型
  • 6.1.5 损失函数
  • 6.1.6 集成学习
  • 6.1.7 通用技巧
  • 6.2 分类任务
  • 6.2.1 任务介绍及常用模型
  • 6.2.2 损失函数
  • 6.2.3 常用技巧
  • 6.3 分割任务
  • 6.3.1 任务介绍及常用模型
  • 6.3.2 损失函数
  • 6.3.3 常用技巧
  • 6.4 检测任务
  • 6.4.1 任务介绍及常用模型
  • 6.4.2 损失函数
  • 6.4.3 常用技巧
  • 第7章 计算机视觉(图像):实战篇
  • 7.1 竞赛介绍
  • 7.2 数据探索
  • 7.2.1 数据基本情况
  • 7.2.2 类型分布
  • 7.2.3 图像分布
  • 7.2.4 标注分布
  • 7.3 优秀方案解读
  • 7.3.1 检测部分
  • 7.3.2 分割部分
  • 7.4 更多方案
  • 第8章 计算机视觉(视频):理论篇
  • 8.1 视频数据与图像数据的区别
  • 8.2 常用模型
  • 8.3 预训练数据集
  • 8.4 任务介绍
  • 第9章 计算机视觉(视频):实战篇
  • 9.1 赛题背景
  • 9.2 数据介绍和评价指标
  • 9.3 冠军方案
  • 第10章 强化学习:理论篇
  • 10.1 智能体设计
  • 10.1.1 观测输入设计
  • 10.1.2 收益设计
  • 10.1.3 动作设计
  • 10.2 模型设计
  • 10.3 算法设计
  • 10.3.1 强化学习算法
  • 10.3.2 超参数调节
  • 10.3.3 训练技巧
  • 10.3.4 算法性能评估
  • 第11章 强化学习:实战篇
  • 11.1 赛题任务
  • 11.2 环境介绍
  • 11.3 评价指标
  • 11.4 冠军方案
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。