展开全部

主编推荐语

介绍如何使用Java创建并实现机器学习算法,既有基础知识,又提供实战案例。

内容简介

本书主要内容包括:机器学习基本概念、原理,Weka、Mahout、Spark等常见机器学习库的用法,各类机器学习常见任务,包括分类、预测预报、购物篮分析、检测异常、行为识别、图像识别以及文本分析。提供了相关Web资源、各种技术研讨会议以及机器学习挑战赛等进阶所需内容。 本书适合机器学习入门者,尤其是想使用Java机器学习库进行数据分析的读者。

目录

  • 版权信息
  • 版权声明
  • 前言
  • 第1章 机器学习应用快速入门
  • 1.1 机器学习与数据科学
  • 1.1.1 机器学习能够解决的问题
  • 1.1.2 机器学习应用流程
  • 1.2 数据与问题定义
  • 测量尺度
  • 1.3 数据收集
  • 1.3.1 发现或观察数据
  • 1.3.2 生成数据
  • 1.3.3 采样陷阱
  • 1.4 数据预处理
  • 1.4.1 数据清洗
  • 1.4.2 填充缺失值
  • 1.4.3 剔除异常值
  • 1.4.4 数据转换
  • 1.4.5 数据归约
  • 1.5 无监督学习
  • 1.5.1 查找相似项目
  • 1.5.2 聚类
  • 1.6 监督学习
  • 1.6.1 分类
  • 1.6.2 回归
  • 1.7 泛化与评估
  • 欠拟合与过拟合
  • 1.8 小结
  • 第2章 面向机器学习的Java库与平台
  • 2.1 Java环境
  • 2.2 机器学习库
  • 2.2.1 Weka
  • 2.2.2 Java机器学习
  • 2.2.3 Apache Mahout
  • 2.2.4 Apache Spark
  • 2.2.5 Deeplearning4j
  • 2.2.6 MALLET
  • 2.2.7 比较各个库
  • 2.3 创建机器学习应用
  • 传统的机器学习架构
  • 2.4 处理大数据
  • 大数据应用架构
  • 2.5 小结
  • 第3章 基本算法——分类、回归和聚类
  • 3.1 开始之前
  • 3.2 分类
  • 3.2.1 数据
  • 3.2.2 加载数据
  • 3.2.3 特征选择
  • 3.2.4 学习算法
  • 3.2.5 对新数据分类
  • 3.2.6 评估与预测误差度量
  • 3.2.7 混淆矩阵
  • 3.2.8 选择分类算法
  • 3.3 回归
  • 3.3.1 加载数据
  • 3.3.2 分析属性
  • 3.3.3 创建与评估回归模型
  • 3.3.4 避免常见回归问题的小技巧
  • 3.4 聚类
  • 3.4.1 聚类算法
  • 3.4.2 评估
  • 3.5 小结
  • 第4章 利用集成方法预测客户关系
  • 4.1 客户关系数据库
  • 4.1.1 挑战
  • 4.1.2 数据集
  • 4.1.3 评估
  • 4.2 最基本的朴素贝叶斯分类器基准
  • 4.2.1 获取数据
  • 4.2.2 加载数据
  • 4.3 基准模型
  • 4.3.1 评估模型
  • 4.3.2 实现朴素贝叶斯基准线
  • 4.4 使用集成方法进行高级建模
  • 4.4.1 开始之前
  • 4.4.2 数据预处理
  • 4.4.3 属性选择
  • 4.4.4 模型选择
  • 4.4.5 性能评估
  • 4.5 小结
  • 第5章 关联分析
  • 5.1 购物篮分析
  • 关联分析
  • 5.2 关联规则学习
  • 5.2.1 基本概念
  • 5.2.2 Apriori算法
  • 5.2.3 FP-增长算法
  • 5.2.4 超市数据集
  • 5.3 发现模式
  • 5.3.1 Apriori算法
  • 5.3.2 FP-增长算法
  • 5.4 在其他领域中的应用
  • 5.4.1 医疗诊断
  • 5.4.2 蛋白质序列
  • 5.4.3 人口普查数据
  • 5.4.4 客户关系管理
  • 5.4.5 IT运营分析
  • 5.5 小结
  • 第6章 使用Apache Mahout制作推荐引擎
  • 6.1 基本概念
  • 6.1.1 关键概念
  • 6.1.2 基于用户与基于项目的分析
  • 6.1.3 计算相似度的方法
  • 6.1.4 利用与探索
  • 6.2 获取Apache Mahout
  • 在带有Maven插件的Eclipse中配置Mahout
  • 6.3 创建一个推荐引擎
  • 6.3.1 图书评分数据集
  • 6.3.2 加载数据
  • 6.3.3 协同过滤
  • 6.4 基于内容的过滤
  • 6.5 小结
  • 第7章 欺诈与异常检测
  • 7.1 可疑与异常行为检测
  • 未知的未知
  • 7.2 可疑模式检测
  • 7.3 异常模式检测
  • 7.3.1 分析类型
  • 7.3.2 事务分析
  • 7.3.3 规划识别
  • 7.4 保险理赔欺诈检测
  • 7.4.1 数据集
  • 7.4.2 为可疑模式建模
  • 7.5 网站流量异常检测
  • 7.5.1 数据集
  • 7.5.2 时序数据中的异常检测
  • 7.6 小结
  • 第8章 利用Deeplearning4j进行图像识别
  • 8.1 图像识别简介
  • 神经网络
  • 8.2 图像分类
  • 8.2.1 Deeplearning4j
  • 8.2.2 MNIST数据集
  • 8.2.3 加载数据
  • 8.2.4 创建模型
  • 8.3 小结
  • 第9章 利用手机传感器进行行为识别
  • 9.1 行为识别简介
  • 9.1.1 手机传感器
  • 9.1.2 行为识别流水线
  • 9.1.3 计划
  • 9.2 从手机收集数据
  • 9.2.1 安装Android Studio
  • 9.2.2 加载数据采集器
  • 9.2.3 收集训练数据
  • 9.3 创建分类器
  • 9.3.1 减少假性转换
  • 9.3.2 将分类器嵌入移动应用
  • 9.4 小结
  • 第10章 利用Mallet进行文本挖掘——主题模型与垃圾邮件检测
  • 10.1 文本挖掘简介
  • 10.1.1 主题模型
  • 10.1.2 文本分类
  • 10.2 安装Mallet
  • 10.3 使用文本数据
  • 10.3.1 导入数据
  • 10.3.2 对文本数据做预处理
  • 10.4 为BBC新闻做主题模型
  • 10.4.1 BBC数据集
  • 10.4.2 建模
  • 10.4.3 评估模型
  • 10.4.4 重用模型
  • 10.5 垃圾邮件检测
  • 10.5.1 垃圾邮件数据集
  • 10.5.2 特征生成
  • 10.5.3 训练与测试模型
  • 10.6 小结
  • 第11章 机器学习进阶
  • 11.1 现实生活中的机器学习
  • 11.1.1 噪声数据
  • 11.1.2 类不平衡
  • 11.1.3 特征选择困难
  • 11.1.4 模型链
  • 11.1.5 评价的重要性
  • 11.1.6 从模型到产品
  • 11.1.7 模型维护
  • 11.2 标准与标记语言
  • 11.2.1 CRISP-DM
  • 11.2.2 SEMMA方法
  • 11.2.3 预测模型标记语言
  • 11.3 云端机器学习
  • 机器学习即服务
  • 11.4 Web资源与比赛
  • 11.4.1 数据集
  • 11.4.2 在线课程
  • 11.4.3 比赛
  • 11.4.4 网站与博客
  • 11.4.5 场馆与会议
  • 11.5 小结
  • 看完了
展开全部

评分及书评

评分不足
2个评分

出版方

人民邮电出版社·图灵出品

图灵社区成立于2005年6月,由人民邮电出版社投资控股,以策划出版高质量的科技书籍为核心业务,主要出版领域包括计算机、电子电气、数学统计、科普等,通过引进国际高水平的教材、专著,以及发掘国内优秀原创作品等途径,为目标读者提供一流的内容。