互联网
类型
可以朗读
语音朗读
213千字
字数
2017-06-01
发行日期
展开全部
主编推荐语
权威教材《云计算》和《大数据》的实践动手篇。
内容简介
本书涵盖大数据专业经典的40个实验,每一个实验给出具体的目的、要求、原理,并给出详细的实验步骤和试验程序。具体包括HDFS实验、YARN实验、MapReduce实验、Hive实验、Spark实验、ZooKeeper实验、HBase实验、Storm实验等等。
目录
- 版权信息
- 内容简介
- 编写组
- 总序
- 前言
- 实验一 大数据实验一体机基础操作
- 1.1 实验目的
- 1.2 实验要求
- 1.3 实验原理
- 1.3.1 大数据实验一体机
- 1.3.2 Linux基本命令
- 1.3.3 vi编辑器
- 1.3.4 SSH免密认证
- 1.3.5 Java基本命令
- 1.3.6 Eclipse集成开发环境
- 1.4 实验步骤
- 1.4.1 搭建集群服务器
- 1.4.2 使用SSH工具登录每台服务器
- 1.4.3 添加域名映射
- 1.4.4 配置SSH免密登录
- 1.4.5 在client服务器开发Java Helloworld程序
- 1.4.6 使用Eclipse开发Java Helloworld程序
- 实验二 HDFS实验:部署HDFS
- 2.1 实验目的
- 2.2 实验要求
- 2.3 实验原理
- 2.3.1 分布式文件系统
- 2.3.2 HDFS
- 2.3.3 HDFS基本命令
- 2.3.4 HDFS适用场景
- 2.4 实验步骤
- 2.4.1 在master服务器上确定存在Hadoop安装目录
- 2.4.2 确认集群服务器之间可SSH免密登录
- 2.4.3 修改HDFS配置文件
- 2.4.4 启动HDFS
- 2.4.5 通过查看进程的方式验证HDFS启动成功
- 2.4.6 使用client上传文件
- 实验三 HDFS实验:读写HDFS文件
- 3.1 实验目的
- 3.2 实验要求
- 3.3 实验原理
- 3.3.1 Java Classpath
- 3.3.2 Eclipse Hadoop插件
- 3.4 实验步骤
- 3.4.1 配置client服务器classpath
- 3.4.2 在client服务器编写HDFS写程序
- 3.4.3 编译并打包HDFS写程序
- 3.4.4 执行HDFS写程序
- 3.4.5 在client服务器编写HDFS读程序
- 3.4.6 编译并打包HDFS读程序
- 3.4.7 执行HDFS读程序
- 3.4.8 安装与配置Eclipse Hadoop插件
- 3.4.9 使用Eclipse开发并打包HDFS写文件程序
- 3.4.10 上传HDFS写文件程序jar包并执行
- 3.4.11 使用Eclipse开发并打包HDFS读文件程序
- 3.4.12 上传HDFS读文件程序jar包并执行
- 实验四 YARN实验:部署YARN集群
- 4.1 实验目的
- 4.2 实验要求
- 4.3 实验原理
- 4.3.1 YARN概述
- 4.3.2 YARN运行流程
- 4.4 实验步骤
- 4.4.1 在master机上配置YARN
- 4.4.2 统一启动YARN
- 4.4.3 验证YARN启动成功
- 4.4.4 在client机上提交DistributedShell任务
- 4.4.5 在client机上提交MapReduce型任务
- 4.5 实验结果
- 实验五 MapReduce实验:单词计数
- 5.1 实验目的
- 5.2 实验要求
- 5.3 实验原理
- 5.3.1 MapReduce编程
- 5.3.2 Java API解析
- 5.4 实验步骤
- 5.4.1 启动Hadoop
- 5.4.2 验证HDFS上没有WordCount的文件夹
- 5.4.3 上传数据文件到HDFS
- 5.4.4 编写MapReduce程序
- 5.4.5 使用Eclipse开发工具将该代码打包
- 5.5 实验结果
- 5.5.1 程序运行成功控制台上的显示内容
- 5.5.2 在HDFS上查看结果
- 实验六 MapReduce实验:二次排序
- 6.1 实验目的
- 6.2 实验要求
- 6.3 实验原理
- 6.4 实验步骤
- 6.4.1 编写程序
- 6.4.2 打包提交
- 6.5 实验结果
- 6.5.1 输入数据
- 6.5.2 执行结果
- 实验七 MapReduce实验:计数器
- 7.1 实验目的
- 7.2 实验要求
- 7.3 实验背景
- 7.3.1 MapReduce计数器是什么?
- 7.3.2 MapReduce计数器能做什么?
- 7.3.3 内置计数器
- 7.3.4 计数器使用
- 7.3.5 自定义计数器
- 7.4 实验步骤
- 7.4.1 实验分析设计
- 7.4.2 编写程序
- 7.4.3 打包并提交
- 7.5 实验结果
- 7.5.1 输入数据
- 7.5.2 输出显示
- 实验八 MapReduce实验:Join操作
- 8.1 实验目的
- 8.2 实验要求
- 8.3 实验背景
- 8.3.1 概述
- 8.3.2 原理
- 8.4 实验步骤
- 8.4.1 准备阶段
- 8.4.2 编写程序
- 8.4.3 打包并提交
- 8.5 实验结果
- 8.5.1 输入数据
- 8.5.2 输出显示
- 实验九 MapReduce实验:分布式缓存
- 9.1 实验目的
- 9.2 实验要求
- 9.3 实验步骤
- 9.3.1 准备数据
- 9.3.2 上传数据
- 9.3.3 编写代码
- 9.3.4 执行代码
- 9.3.5 查看结果
- 9.4 实验结果
- 实验十 Hive实验:部署Hive
- 10.1 实验目的
- 10.2 实验要求
- 10.3 实验原理
- 10.4 实验步骤
- 10.4.1 安装部署
- 10.4.2 配置HDFS
- 10.4.3 启动Hive
- 10.5 实验结果
- 10.5.1 启动结果
- 10.5.2 Hive基本命令
- 实验十一 Hive实验:新建Hive表
- 11.1 实验目的
- 11.2 实验要求
- 11.3 实验原理
- 11.4 实验步骤
- 11.4.1 启动Hive
- 11.4.2 创建表
- 11.4.3 显示表
- 11.4.4 显示表列
- 11.4.5 更改表
- 11.4.6 删除表(或列)
- 11.5 实验结果
- 实验十二 Hive实验:Hive分区
- 12.1 实验目的
- 12.2 实验要求
- 12.3 实验原理
- 12.4 实验步骤
- 12.4.1 启动Hadoop集群
- 12.4.2 用命令进入Hive客户端
- 12.4.3 通过HQL语句进行实验
- 12.5 实验结果
- 实验十三 Spark实验:部署Spark集群
- 13.1 实验目的
- 13.2 实验要求
- 13.3 实验原理
- 13.3.1 Spark简介
- 13.3.2 Spark适用场景
- 13.4 实验步骤
- 13.4.1 配置Spark集群
- 13.4.2 配置HDFS
- 13.4.3 提交Spark任务
- 13.5 实验结果
- 13.5.1 进程查看
- 13.5.2 验证WebUI
- 13.5.3 SparkWordcount程序执行
- 实验十四 Spark实验:SparkWordCount
- 14.1 实验目的
- 14.2 实验要求
- 14.3 实验原理
- 14.3.1 Scala是兼容的
- 14.3.2 Scala是简洁的
- 14.3.3 Scala是高级的
- 14.3.4 Scala是静态类型的
- 14.4 实验步骤
- 14.5 实验结果
- 实验十五 Spark实验:RDD综合实验
- 15.1 实验目的
- 15.2 实验要求
- 15.3 实验原理
- 15.4 实验步骤
- 15.4.1 distinct 去除RDD内的重复数据
- 15.4.2 foreach 遍历RDD内的数据
- 15.4.3 first取得RDD中的第一个数据
- 15.4.4 max 取得RDD中的最大的数据
- 15.4.5 intersection 返回两个RDD重叠的数据
- 15.5 实验结果
- 实验十六 Spark实验:Spark综例
- 16.1 实验目的
- 16.2 实验要求
- 16.3 实验原理
- 16.3.1 Scala
- 16.3.2 Spark-shell
- 16.4 实验步骤
- 16.4.1 启动Spark-shell
- 16.4.2 编写并执行Scala代码
- 16.4.3 退出Spark-shell
- 16.4.4 查看执行结果
- 实验十七 Spark实验:Spark SQL
- 17.1 实验目的
- 17.2 实验要求
- 17.3 实验原理
- 17.4 实验步骤
- 17.5 实验结果
- 实验十八 Spark实验:Spark Streaming
- 18.1 实验目的
- 18.2 实验要求
- 18.3 实验原理
- 18.3.1 Spark Streaming架构
- 18.3.2 Spark Streaming编程模型
- 18.3.3 Spark Streaming典型案例
- 18.4 实验步骤
- 18.5 实验结果
- 实验十九 Spark实验:GraphX
- 19.1 实验目的
- 19.2 实验要求
- 19.3 实验原理
- 19.4 实验步骤
- 19.4.1 在Intellij IDEA 中安装Scala的插件
- 19.4.2 新建Scala Module
- 19.4.3 添加maven依赖
- 19.4.4 新建Scala程序
- 19.4.5 程序运行
- 19.5 实验结果
- 实验二十 部署ZooKeeper
- 20.1 实验目的
- 20.2 实验要求
- 20.3 实验原理
- 20.4 实验步骤
- 20.4.1 安装JDK
- 20.4.2 修改ZooKeeper配置文件
- 20.4.3 启动ZooKeeper集群
- 20.5 实验结果
- 实验二十一 ZooKeeper进程协作
- 21.1 实验目的
- 21.2 实验要求
- 21.3 实验原理
- 21.4 实验步骤
- 21.4.1 启动ZooKeeper集群
- 21.4.2 导入jar包
- 21.4.3 编写Java代码
- 21.4.4 做成jar包
- 21.5 实验结果
- 实验二十二 部署HBase
- 22.1 实验目的
- 22.2 实验要求
- 22.3 实验原理
- 22.4 实验步骤
- 22.5 实验结果
- 实验二十三 新建HBase表
- 23.1 实验目的
- 23.2 实验要求
- 23.3 实验原理
- 23.4 实验步骤
- 23.5 实验结果
- 实验二十四 部署Storm
- 24.1 实验目的
- 24.2 实验要求
- 24.3 实验原理
- 24.4 实验步骤
- 24.5 实验结果
- 实验二十五 实时WordCountTopology
- 25.1 实验目的
- 25.2 实验要求
- 25.3 实验原理
- 25.3.1 Topologies
- 25.3.2 Spouts
- 25.3.3 Bolts
- 25.4 实验步骤
- 25.5 实验结果
- 实验二十六 文件数据Flume至HDFS
- 26.1 实验目的
- 26.2 实验要求
- 26.3 实验原理
- 26.3.1 Flume的特点
- 26.3.2 Flume的可靠性
- 26.4 实验步骤
- 26.5 实验结果
- 实验二十七 Kafka订阅推送示例
- 27.1 实验目的
- 27.2 实验要求
- 27.3 实验原理
- 27.3.1 Kafka简介
- 27.3.2 Kafka使用场景
- 27.4 实验步骤
- 27.4.1 安装ZooKeeper集群
- 27.4.2 安装Kafka集群
- 27.4.3 验证消息推送
- 27.5 实验结果
- 实验二十八 Pig版WordCount
- 28.1 实验目的
- 28.2 实验要求
- 28.3 实验原理
- 28.4 实验步骤
- 28.5 实验结果
- 实验二十九 Redis部署与简单使用
- 29.1 实验目的
- 29.2 实验要求
- 29.3 实验原理
- 29.3.1 CentOS 简介
- 29.3.2 CentOS与RHEL关系
- 29.3.3 make简介
- 29.3.4 Redis简介
- 29.4 实验步骤
- 29.4.1 安装配置启动
- 29.4.2 使用Redis
- 29.5 实验结果
- 实验三十 MapReduce与Spark读写Redis
- 30.1 实验目的
- 30.2 实验要求
- 30.3 实验原理
- 30.4 实验步骤
- 30.4.1 MapReduce读取Redis
- 30.4.2 Spark读取Redis
- 30.5 实验结果
- 30.5.1 MapReduce读取Redis实验
- 30.5.2 Spark读取Redis实验
- 实验三十一 MongoDB实验:读写MongoDB
- 31.1 实验目的
- 31.2 实验要求
- 31.3 实验原理
- 31.4 实验步骤
- 31.4.1 启动MongoDB
- 31.4.2 连接使用MongoDB
- 31.4.3 连接启动MongoDB的Shell,执行一些简单命令
- 31.5 实验结果
- 实验三十二 LevelDB实验:读写LevelDB
- 32.1 实验目的
- 32.2 实验要求
- 32.3 实验原理
- 32.4 实验步骤
- 32.4.1 使用C++代码建立数据库连接
- 32.4.2 写入数据
- 32.4.3 读取数据
- 32.4.4 删除数据
- 32.4.5 关闭连接
- 32.4.6 完整的代码
- 32.5 实验结果
- 实验三十三 Mahout实验:K-Means
- 33.1 实验目的
- 33.2 实验要求
- 33.3 实验原理
- 33.3.1 Mahout简介
- 33.3.2 Mahout发展
- 33.3.3 Mahout特性
- 33.3.4 K-Means算法概要
- 33.3.5 K-Means算法存在的问题
- 33.3.6 K-Means算法优点
- 33.3.7 K-Means算法缺点
- 33.3.8 K-Means算法应用
- 33.4 实验步骤
- 33.4.1 添加临时JAVA_HOME环境变量
- 33.4.2 建立HDFS目录
- 33.4.3 实验数据准备
- 33.4.4 提交Mahout的K-Means程序
- 33.5 实验结果
- 实验三十四 使用Spark实现K-Means
- 34.1 实验目的
- 34.2 实验要求
- 34.3 实验原理
- 34.4 实验步骤
- 34.4.1 添加临时JAVA_HOME环境变量
- 34.4.2 上传训练数据集
- 34.4.3 训练SVM模型
- 34.5 实验结果
- 实验三十五 使用Spark实现SVM
- 35.1 实验目的
- 35.2 实验要求
- 35.3 实验原理
- 35.3.1 SVM算法介绍
- 35.3.2 SVM算法原理
- 35.4 实验步骤
- 35.4.1 添加临时JAVA_HOME环境变量
- 35.4.2 上传训练数据集
- 35.4.3 训练SVM模型
- 35.5 实验结果
- 实验三十六 使用Spark实现FP-Growth
- 36.1 实验目的
- 36.2 实验要求
- 36.3 实验原理
- 36.3.1 FP-Growth算法简介
- 36.3.2 FP-Growth算法流程
- 36.4 实验步骤
- 36.4.1 添加临时JAVA_HOME环境变量
- 36.4.2 上传训练数据集
- 36.4.3 训练SVM模型
- 36.5 实验结果
- 实验三十七 综合实战:车牌识别
- 37.1 实验目的
- 37.2 实验要求
- 37.3 实验步骤
- 37.3.1 编写程序
- 37.3.2 环境准备
- 37.3.3 打包提交
- 37.4 实验结果
- 37.4.1 输入数据
- 37.4.2 执行结果
- 实验三十八 综合实战:搜索引擎
- 38.1 实验目的
- 38.2 实验要求
- 38.3 实验步骤
- 38.3.1 新建Java项目
- 38.3.2 新建JavaWeb项目
- 38.3.3 网页扒取
- 38.3.4 建立关键词索引
- 38.3.5 关键词搜索
- 38.4 实验结果
- 实验三十九 综合实战:推荐系统
- 39.1 实验目的
- 39.2 实验要求
- 39.3 实验步骤
- 39.3.1 试验原理概述
- 39.3.2 数据集准备
- 39.3.3 代码实现
- 39.4 实验结果
- 实验四十 综合实战:环境大数据
- 40.1 实验目的
- 40.2 实验要求
- 40.3 实验原理
- 40.4 实验步骤
- 40.4.1 分析数据文件
- 40.4.2 将数据文件上传至HDFS
- 40.4.3 编写月平均气温统计程序
- 40.4.4 查看月平均气温统计结果
- 40.4.5 编写每日空气质量统计程序
- 40.4.6 查看每日空气质量统计结果
- 40.4.7 将每日空气质量统计文件进行整合
- 40.4.8 编写各空气质量天数统计程序
- 40.4.9 查看各空气质量天数统计结果
- 实验四十一 综合实战:智能硬件大数据托管
- 41.1 实验目的
- 41.2 实验要求
- 41.3 实验原理
- 41.4 实验步骤
- 41.4.1 万物云平台相关注册
- 41.4.2 建表——用于存储智能硬件的数据
- 41.4.3 智能硬件接入平台
- 41.4.4 数据上传
- 41.4.5 数据查询
- 41.4.6 简单的数据分析
- 41.5 实验结果
- 实验四十二 综合实战:贷款风险评估
- 42.1 实验目的
- 42.2 实验要求
- 42.3 实验原理
- 42.3.1 分类过程及评估指标
- 42.3.2 spark-submit使用详解
- 42.4 实验相关
- 42.4.1 实验环境
- 42.4.2 实验数据
- 42.4.3 实验步骤
- 42.5 实验结果
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。