科技
类型
可以朗读
语音朗读
147千字
字数
2017-09-01
发行日期
展开全部
主编推荐语
介绍如何使用Java创建并实现机器学习算法,既有基础知识,又提供实战案例。
内容简介
本书主要内容包括:机器学习基本概念、原理,Weka、Mahout、Spark等常见机器学习库的用法,各类机器学习常见任务,包括分类、预测预报、购物篮分析、检测异常、行为识别、图像识别以及文本分析。提供了相关Web资源、各种技术研讨会议以及机器学习挑战赛等进阶所需内容。 本书适合机器学习入门者,尤其是想使用Java机器学习库进行数据分析的读者。
目录
- 版权信息
- 版权声明
- 前言
- 第1章 机器学习应用快速入门
- 1.1 机器学习与数据科学
- 1.1.1 机器学习能够解决的问题
- 1.1.2 机器学习应用流程
- 1.2 数据与问题定义
- 测量尺度
- 1.3 数据收集
- 1.3.1 发现或观察数据
- 1.3.2 生成数据
- 1.3.3 采样陷阱
- 1.4 数据预处理
- 1.4.1 数据清洗
- 1.4.2 填充缺失值
- 1.4.3 剔除异常值
- 1.4.4 数据转换
- 1.4.5 数据归约
- 1.5 无监督学习
- 1.5.1 查找相似项目
- 1.5.2 聚类
- 1.6 监督学习
- 1.6.1 分类
- 1.6.2 回归
- 1.7 泛化与评估
- 欠拟合与过拟合
- 1.8 小结
- 第2章 面向机器学习的Java库与平台
- 2.1 Java环境
- 2.2 机器学习库
- 2.2.1 Weka
- 2.2.2 Java机器学习
- 2.2.3 Apache Mahout
- 2.2.4 Apache Spark
- 2.2.5 Deeplearning4j
- 2.2.6 MALLET
- 2.2.7 比较各个库
- 2.3 创建机器学习应用
- 传统的机器学习架构
- 2.4 处理大数据
- 大数据应用架构
- 2.5 小结
- 第3章 基本算法——分类、回归和聚类
- 3.1 开始之前
- 3.2 分类
- 3.2.1 数据
- 3.2.2 加载数据
- 3.2.3 特征选择
- 3.2.4 学习算法
- 3.2.5 对新数据分类
- 3.2.6 评估与预测误差度量
- 3.2.7 混淆矩阵
- 3.2.8 选择分类算法
- 3.3 回归
- 3.3.1 加载数据
- 3.3.2 分析属性
- 3.3.3 创建与评估回归模型
- 3.3.4 避免常见回归问题的小技巧
- 3.4 聚类
- 3.4.1 聚类算法
- 3.4.2 评估
- 3.5 小结
- 第4章 利用集成方法预测客户关系
- 4.1 客户关系数据库
- 4.1.1 挑战
- 4.1.2 数据集
- 4.1.3 评估
- 4.2 最基本的朴素贝叶斯分类器基准
- 4.2.1 获取数据
- 4.2.2 加载数据
- 4.3 基准模型
- 4.3.1 评估模型
- 4.3.2 实现朴素贝叶斯基准线
- 4.4 使用集成方法进行高级建模
- 4.4.1 开始之前
- 4.4.2 数据预处理
- 4.4.3 属性选择
- 4.4.4 模型选择
- 4.4.5 性能评估
- 4.5 小结
- 第5章 关联分析
- 5.1 购物篮分析
- 关联分析
- 5.2 关联规则学习
- 5.2.1 基本概念
- 5.2.2 Apriori算法
- 5.2.3 FP-增长算法
- 5.2.4 超市数据集
- 5.3 发现模式
- 5.3.1 Apriori算法
- 5.3.2 FP-增长算法
- 5.4 在其他领域中的应用
- 5.4.1 医疗诊断
- 5.4.2 蛋白质序列
- 5.4.3 人口普查数据
- 5.4.4 客户关系管理
- 5.4.5 IT运营分析
- 5.5 小结
- 第6章 使用Apache Mahout制作推荐引擎
- 6.1 基本概念
- 6.1.1 关键概念
- 6.1.2 基于用户与基于项目的分析
- 6.1.3 计算相似度的方法
- 6.1.4 利用与探索
- 6.2 获取Apache Mahout
- 在带有Maven插件的Eclipse中配置Mahout
- 6.3 创建一个推荐引擎
- 6.3.1 图书评分数据集
- 6.3.2 加载数据
- 6.3.3 协同过滤
- 6.4 基于内容的过滤
- 6.5 小结
- 第7章 欺诈与异常检测
- 7.1 可疑与异常行为检测
- 未知的未知
- 7.2 可疑模式检测
- 7.3 异常模式检测
- 7.3.1 分析类型
- 7.3.2 事务分析
- 7.3.3 规划识别
- 7.4 保险理赔欺诈检测
- 7.4.1 数据集
- 7.4.2 为可疑模式建模
- 7.5 网站流量异常检测
- 7.5.1 数据集
- 7.5.2 时序数据中的异常检测
- 7.6 小结
- 第8章 利用Deeplearning4j进行图像识别
- 8.1 图像识别简介
- 神经网络
- 8.2 图像分类
- 8.2.1 Deeplearning4j
- 8.2.2 MNIST数据集
- 8.2.3 加载数据
- 8.2.4 创建模型
- 8.3 小结
- 第9章 利用手机传感器进行行为识别
- 9.1 行为识别简介
- 9.1.1 手机传感器
- 9.1.2 行为识别流水线
- 9.1.3 计划
- 9.2 从手机收集数据
- 9.2.1 安装Android Studio
- 9.2.2 加载数据采集器
- 9.2.3 收集训练数据
- 9.3 创建分类器
- 9.3.1 减少假性转换
- 9.3.2 将分类器嵌入移动应用
- 9.4 小结
- 第10章 利用Mallet进行文本挖掘——主题模型与垃圾邮件检测
- 10.1 文本挖掘简介
- 10.1.1 主题模型
- 10.1.2 文本分类
- 10.2 安装Mallet
- 10.3 使用文本数据
- 10.3.1 导入数据
- 10.3.2 对文本数据做预处理
- 10.4 为BBC新闻做主题模型
- 10.4.1 BBC数据集
- 10.4.2 建模
- 10.4.3 评估模型
- 10.4.4 重用模型
- 10.5 垃圾邮件检测
- 10.5.1 垃圾邮件数据集
- 10.5.2 特征生成
- 10.5.3 训练与测试模型
- 10.6 小结
- 第11章 机器学习进阶
- 11.1 现实生活中的机器学习
- 11.1.1 噪声数据
- 11.1.2 类不平衡
- 11.1.3 特征选择困难
- 11.1.4 模型链
- 11.1.5 评价的重要性
- 11.1.6 从模型到产品
- 11.1.7 模型维护
- 11.2 标准与标记语言
- 11.2.1 CRISP-DM
- 11.2.2 SEMMA方法
- 11.2.3 预测模型标记语言
- 11.3 云端机器学习
- 机器学习即服务
- 11.4 Web资源与比赛
- 11.4.1 数据集
- 11.4.2 在线课程
- 11.4.3 比赛
- 11.4.4 网站与博客
- 11.4.5 场馆与会议
- 11.5 小结
- 看完了
展开全部
出版方
人民邮电出版社·图灵出品
图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。