计算机
类型
6.7
豆瓣评分
可以朗读
语音朗读
68千字
字数
2018-01-01
发行日期
展开全部
主编推荐语
实用机器学习入门书籍,以实践为导向,简单快速建模,适合项目经理、程序员和学生。
内容简介
本书系统地讲解了机器学习的基本知识,以及在实际项目中使用机器学习的基本步骤和方法;详细地介绍了数据处理、分析、选择合适的算法,以及建立模型并优化等,通过不同的例子展示了机器学习在具体的项目中的应用和实践经验,是一本非常好的机器学习入门和实践的书籍。不同于很多讲解机器学习的书籍,本书以实践为导向,使用scikit-learn作为编程框架,强调简单、快速地建立模型,解决实际项目问题。读者通过对本书的学习,可以迅速上手实践机器学习,并利用机器学习解决实际问题。本书非常适合于项目经理,有意从事机器学习开发的程序员,以及高校相关专业的在读学生。
目录
- 封面
- 作者介绍
- 版权页
- 序言
- 前言
- 目录
- 第一部分 初始
- 1 初识机器学习
- 1.1 学习机器学习的误区
- 1.2 什么是机器学习
- 1.3 Python中的机器学习
- 1.4 学习机器学习的原则
- 1.5 学习机器学习的技巧
- 1.6 这本书不涵盖以下内容
- 1.7 代码说明
- 1.8 总结
- 2 Python机器学习的生态圈
- 2.1 Python
- 2.2 SciPy
- 2.3 scikit-learn
- 2.4 环境安装
- 2.4.1 安装Python
- 2.4.2 安装SciPy
- 2.4.3 安装scikit-learn
- 2.4.4 更加便捷的安装方式
- 2.5 总结
- 3 第一个机器学习项目
- 3.1 机器学习中的Hello World项目
- 3.2 导入数据
- 3.2.1 导入类库
- 3.2.2 导入数据集
- 3.3 概述数据
- 3.3.1 数据维度
- 3.3.2 查看数据自身
- 3.3.3 统计描述数据
- 3.3.4 数据分类分布
- 3.4 数据可视化
- 3.4.1 单变量图表
- 3.4.2 多变量图表
- 3.5 评估算法
- 3.5.1 分离出评估数据集
- 3.5.2 评估模式
- 3.5.3 创建模型
- 3.5.4 选择最优模型
- 3.6 实施预测
- 3.7 总结
- 4 Python和SciPy速成
- 4.1 Python速成
- 4.1.1 基本数据类型和赋值运算
- 4.1.2 控制语句
- 4.1.3 复杂数据类型
- 4.1.4 函数
- 4.1.5 with语句
- 4.2 NumPy速成
- 4.2.1 创建数组
- 4.2.2 访问数据
- 4.2.3 算数运算
- 4.3 Matplotlib速成
- 4.3.1 绘制线条图
- 4.3.2 散点图
- 4.4 Pandas速成
- 4.4.1 Series
- 4.4.2 DataFrame
- 4.5 总结
- 第二部分 数据理解
- 5 数据导入
- 5.1 CSV文件
- 5.1.1 文件头
- 5.1.2 文件中的注释
- 5.1.3 分隔符
- 5.1.4 引号
- 5.2 Pima Indians数据集
- 5.3 采用标准Python类库导入数据
- 5.4 采用NumPy导入数据
- 5.5 采用Pandas导入数据
- 5.6 总结
- 6 数据理解
- 6.1 简单地查看数据
- 6.2 数据的维度
- 6.3 数据属性和类型
- 6.4 描述性统计
- 6.5 数据分组分布(适用于分类算法)
- 6.6 数据属性的相关性
- 6.7 数据的分布分析
- 6.8 总结
- 7 数据可视化
- 7.1 单一图表
- 7.1.1 直方图
- 7.1.2 密度图
- 7.1.3 箱线图
- 7.2 多重图表
- 7.2.1 相关矩阵图
- 7.2.2 散点矩阵图
- 7.3 总结
- 第三部分 数据准备
- 8 数据预处理
- 8.1 为什么需要数据预处理
- 8.2 格式化数据
- 8.3 调整数据尺度
- 8.4 正态化数据
- 8.5 标准化数据
- 8.6 二值数据
- 8.7 总结
- 9 数据特征选定
- 9.1 特征选定
- 9.2 单变量特征选定
- 9.3 递归特征消除
- 9.4 主要成分分析
- 9.5 特征重要性
- 9.6 总结
- 第四部分 选择模型
- 10 评估算法
- 10.1 评估算法的方法
- 10.2 分离训练数据集和评估数据集
- 10.3 K折交叉验证分离
- 10.4 弃一交叉验证分离
- 10.5 重复随机分离评估数据集与训练数据集
- 10.6 总结
- 11 算法评估矩阵
- 11.1 算法评估矩阵
- 11.2 分类算法矩阵
- 11.2.1 分类准确度
- 11.2.2 对数损失函数
- 11.2.3 AUC图
- 11.2.4 混淆矩阵
- 11.2.5 分类报告
- 11.3 回归算法矩阵
- 11.3.1 平均绝对误差
- 11.3.2 均方误差
- 11.3.3 决定系数(R2)
- 11.4 总结
- 12 审查分类算法
- 12.1 算法审查
- 12.2 算法概述
- 12.3 线性算法
- 12.3.1 逻辑回归
- 12.3.2 线性判别分析
- 12.4 非线性算法
- 12.4.1 K近邻算法
- 12.4.2 贝叶斯分类器
- 12.4.3 分类与回归树
- 12.4.4 支持向量机
- 12.5 总结
- 13 审查回归算法
- 13.1 算法概述
- 13.2 线性算法
- 13.2.1 线性回归算法
- 13.2.2 岭回归算法
- 13.2.3 套索回归算法
- 13.2.4 弹性网络回归算法
- 13.3 非线性算法
- 13.3.1 K近邻算法
- 13.3.2 分类与回归树
- 13.3.3 支持向量机
- 13.4 总结
- 14 算法比较
- 14.1 选择最佳的机器学习算法
- 14.2 机器学习算法的比较
- 14.3 总结
- 15 自动流程
- 15.1 机器学习的自动流程
- 15.2 数据准备和生成模型的Pipeline
- 15.3 特征选择和生成模型的Pipeline
- 15.4 总结
- 第五部分 优化模型
- 16 集成算法
- 16.1 集成的方法
- 16.2 装袋算法
- 16.2.1 装袋决策树
- 16.2.2 随机森林
- 16.2.3 极端随机树
- 16.3 提升算法
- 16.3.1 AdaBoost
- 16.3.2 随机梯度提升
- 16.4 投票算法
- 16.5 总结
- 17 算法调参
- 17.1 机器学习算法调参
- 17.2 网格搜索优化参数
- 17.3 随机搜索优化参数
- 17.4 总结
- 第六部分 结果部署
- 18 持久化加载模型
- 18.1 通过pickle序列化和反序列化机器学习的模型
- 18.2 通过joblib序列化和反序列化机器学习的模型
- 18.3 生成模型的技巧
- 18.4 总结
- 第七部分 项目实践
- 19 预测模型项目模板
- 19.1 在项目中实践机器学习
- 19.2 机器学习项目的Python模板
- 19.3 各步骤的详细说明
- 步骤1:定义问题
- 步骤2:理解数据
- 步骤3:数据准备
- 步骤4:评估算法
- 步骤5:优化模型
- 步骤6:结果部署
- 19.4 使用模板的小技巧
- 19.5 总结
- 20 回归项目实例
- 20.1 定义问题
- 20.2 导入数据
- 20.3 理解数据
- 20.4 数据可视化
- 20.4.1 单一特征图表
- 20.4.2 多重数据图表
- 20.4.3 思路总结
- 20.5 分离评估数据集
- 20.6 评估算法
- 20.6.1 评估算法——原始数据
- 20.6.2 评估算法——正态化数据
- 20.7 调参改善算法
- 20.8 集成算法
- 20.9 集成算法调参
- 20.10 确定最终模型
- 20.11 总结
- 21 二分类实例
- 21.1 问题定义
- 21.2 导入数据
- 21.3 分析数据
- 21.3.1 描述性统计
- 21.3.2 数据可视化
- 21.4 分离评估数据集
- 21.5 评估算法
- 21.6 算法调参
- 21.6.1 K近邻算法调参
- 21.6.2 支持向量机调参
- 21.7 集成算法
- 21.8 确定最终模型
- 21.9 总结
- 22 文本分类实例
- 22.1 问题定义
- 22.2 导入数据
- 22.3 文本特征提取
- 22.4 评估算法
- 22.5 算法调参
- 22.5.1 逻辑回归调参
- 22.5.2 朴素贝叶斯分类器调参
- 22.6 集成算法
- 22.7 集成算法调参
- 22.8 确定最终模型
- 22.9 总结
- 附录A
- A.1 IDE PyCharm介绍
- A.2 Python文档
- A.3 SciPy、NumPy、Matplotlib和Pandas文档
- A.4 树模型可视化
- A.5 scikit-learn的算法选择路径
- A.6 聚类分析
- 反侵权盗版声明
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。