如何使用docker搭建hadoop的cdh版本单节点伪集群开发测试环境

hadoop与大数据

发布日期: 2019-05-08

文章字数: 1.6k

阅读时长: 7 分

阅读次数:

前言

docker 是一个容器化技术的程序。不仅适用于微服务集群部署，而且作为开发者个人使用，也是十分方便的，比如我们可以快速安装数据库，缓存等中间件，丝毫不影响物理机的系统环境，不会因为卸载，更新等，带来不可预知的问题，也减少了重装系统的可能性。

在容器化技术，docker 一直走在前列，docker 是用 go 语言编写的一个容器平台，他的基本单位是容器，每个容器就像一个独立的操作系统一样，可以在自己封闭的环境里独立运行，其中，容器是由镜像生成的。

所以使用 docker 的一般顺序是，拉取（或自己构建）镜像，然后由镜像生成一个或多个容器，然后启动容器，开始使用。

Hadoop 版本介绍

Apache Hadoop
- 完全开源免费、社区活跃、文档，资料详实
- 复杂的版本管理
- 复杂的集群部署、安装、配置
- 复杂的集群运维。对集群的监控，运维
- 复杂的生态环境
CDH: Cloudera Distributed Hadoop
- 基于Apache协议，100%开源
- 最早出现，拥有最多的部署案例
- 提供强大的部署、管理和监控工具
- 开发并贡献了可实时处理大数据的Impala项目
HDP: Hortonworks Data Platform
- 开创性地极大地优化了Hive项目
- 开发了很多增强特性并提交至核心主干
- 100%开源，总是有最新版本的 Hadoop
其他

Hadoop 小象

其中在第三发发行版中，国内应用较多的是Cloudera的CDH^[1]，我们使用 CDH 版本继续本文的内容。

准备 docker

本文使用 windows 举例，前往https://docs.docker.com/docker-for-windows/install/下载 Docker Desktop for Windows。

然后双击 exe 文件进行安装，如果遇到错误提示，请自行百度google解决。

安装 Hadoop

方式一：使用 docker pull

使用docker pull命令拉取 cloudera 官方在 docker hub 上面的快速开始仓库：

$ docker pull cloudera/quickstart:latest

由于镜像文件大约 4.4 GB ，存储在 docker hub ，在线下载速度特别慢，尤其是当网络条件受限的情况下，可能需要好几天才能下载完成。所以推荐第二种下载方式：

方式二：离线导入（推荐）

docker 支持导入离线的镜像，通过使用docker import命令即可导入下载的 docker image：

$ docker import --help

Usage:  docker import [OPTIONS] file|URL|- [REPOSITORY[:TAG]]

Import the contents from a tarball to create a filesystem image

Options:
  -c, --change list      Apply Dockerfile instruction to the created image
  -m, --message string   Set commit message for imported image

下载

点击https://www.cloudera.com/downloads/quickstart_vms/5-13.html前往QuickStarts for CDH 5.13页面下载 docker image

请选择 docker image

然后填表，进行下载，这里的下载速度很快。

解压

下载完毕后开始解压：

$ tar zxf cloudera-quickstart-vm-5.13.0-0-beta-docker.tar.gz

或使用 winrar 或其他您喜欢的 GUI 解压软件进行解压。

解压完成后会在文件夹里找到名为cloudera-quickstart-vm-5.13.0-0-beta-docker.tar的文件，其大小为 6.58 GB。

导入

使用docker import命令导入 tar 文件：

$ docker import /path/to/your/cloudera-quickstart-vm-5.13.0-0-beta-docker.tar cloudera/quickstart:5.13.0

sha256:99bf0549gfb236526bcbb0db0f1dab8d35g774eb9d9712cd430debb640ee7ce5

在 tar 文件后面继续写 cloudera/quickstart:5.13.0 指明仓库名(Repository)和版本号(Tag)，方便管理。

运行 Hadoop

现在已经导入了我们所下载的 hadoop 镜像，接下来就是把它在 docker 中运行起来^[2]：

$ docker run --name cdh_study --hostname=quickstart.cloudera --privileged=true -t -i -p 8888:8888 -p 80:80 -p 7180:7180 cloudera/quickstart:5.13.0 /usr/bin/docker-quickstart

Starting mysqld:                                           [  OK  ]    
                                                                       
if [ "$1" == "start" ] ; then                                          
    if [ "${EC2}" == 'true' ]; then                                    
        FIRST_BOOT_FLAG=/var/lib/cloudera-quickstart/.ec2-key-installed
        if [ ! -f "${FIRST_BOOT_FLAG}" ]; then                         
            METADATA_API=http://169.254.169.254/latest/meta-data       
            KEY_URL=${METADATA_API}/public-keys/0/openssh-key          
            SSH_DIR=/home/cloudera/.ssh                                
            mkdir -p ${SSH_DIR}                                        
            chown cloudera:cloudera ${SSH_DIR}                         
            curl ${KEY_URL} >> ${SSH_DIR}/authorized_keys              
            touch ${FIRST_BOOT_FLAG}                                   
        fi                                                             
    fi                                                                 
    
# more insignificant output #

Started Impala Catalog Server (catalogd) :                 [  OK  ]
Started Impala Server (impalad):                           [  OK  ]

上述命令的参数解释如下：

参数	解释
–hostname=quickstart.cloudera	必须。伪分布式就认这个名字。
–privileged=true	必须。HBase, MySQL-backed Hive metastore, Hue, Oozie, Sentry, and Cloudera Manager 需要权限
-i -t	必须。-i 或 --interactive 可交互的，保持 STIDIN 存活；-t 或 --tty 分配一个 tty bash 来进行交互
-p 8888:8888	推荐。把 Hue 的端口暴露到物理机。同样类似的还有 80 7180等
-d	可选。-d 或 --detach，后台运行命令
/usr/bin/docker-quickstart	必须。当容器 cloudera/quickstart:5.13.0 创建完成后，执行这个容器里面的脚本

脚本运行一会儿后，出现好几个 OK 的提示，就说明安装成功了。这时候我们就默认停留在了这个容器里面：

脚本运行完毕

测试 Hadoop

紧接着，在终端目前所处的 [root@quickstart /]#下输入：

$ hadoop version
Hadoop 2.6.0-cdh5.13.0
...other insignificant infomation...

检查 java 环境：

$ java -version
java version "1.7.0_67"
Java(TM) SE Runtime Environment (build 1.7.0_67-b01)
Java HotSpot(TM) 64-Bit Server VM (build 24.65-b04, mixed mode)

进行存储文件测试：

$ hadoop fs -mkdir test_hdfs
$ hadoop fs -touchz test_hdfs/hello.txt
$ hadoop fs -ls
Found 1 items
drwxr-xr-x   - root supergroup          0 2019-05-08 11:05 test_hdfs
$ hadoop fs -ls test_hdfs
Found 1 items
-rw-r--r--   1 root supergroup          0 2019-05-08 11:05 test_hdfs/hello.txt
$ hadoop fs -text test_hdfs/hello.txt

cloudera live

在浏览器中输入http://localhost

cloudera live

Hue

在浏览器中输入http://localhost:8888/

Hue 认证页

默认用户名密码为 cloudera

在 Hue 的文件浏览器中查看刚刚创建的文件

下次使用

关掉终端之后，如果下次想再次使用，以下命令可以帮到您：

查看所有的容器

$ docker container ls -a

等效于：

$ docker ps -a

其中的STATUS如果是Exited就说明此容器已经退出了。

启动方式为：

启动一个容器

$ docker container start [container name]
cdh_study

然后再执行查看所有的容器的命令，发现 cdh_study 的STATUS已经变成UP了。但是并没有出现可交互的命令行。

进入一个已经在运行的容器的终端命令行

如果容器的STATUS是UP使用下面命令就能重新回到容器内部的命令行：

$ docker container attach [container name]
[root@quickstart /]#

或

$ docker container exec -it [container name] bash
[root@quickstart /]#

这两个命令中的 container字样可以省略不写

查看容器输出的日志：

$ docker container logs -f [container name]
# a lot of logs are printed here and more are coming on the way #

其中 -f 是持续输出。

参考资料

Apache Hadoop、CDH、HDP、MapR区别 https://blog.csdn.net/feng12345zi/article/details/83016460 ↩︎
cloudera/quickstart Single-node deployment of Cloudera’s 100% open-source Hadoop platform, and Cloudera Manager https://hub.docker.com/r/cloudera/quickstart/ ↩︎

转载规则

《如何使用docker搭建hadoop的cdh版本单节点伪集群开发测试环境》由 Harbor Zeng 采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

快：基于docker一键搭建spark单机环境的WordCount APP实现

前言 spark 是一个大数据处理技术栈，广义的spark包括 spark sql，spark shell，HDFS 和 YARN。本文将向您介绍：使用使用最快的方式安装 spark 如何快速开发一个字符频数统计（Word count）的小项目如何使用 docker 管理镜像和容器安装 docker 前往https://www.docker.com/注册 docker 账号，登录后

2019-07-16 spark与大数据

spark python docker wordcount

一文读懂什么是serverless和它的重要性

前一阵子，我在公司实习的时候，给小组内做了这样一个分享，今天终于有时间，整理出来。变成一片文章，与您分享。内容是我初次探索 Serverless 架构学习到的一些知识，如有错误的地方，希望您能指出。谢谢。 1. 前言语言的进化、浏览器的进化、服务器的进化，都是从复杂到简单，底层到封装的过程，而 Serverless 是后端 + 运维作为一个整体的进一步封装的过程，是把运维“外包”出去的服务

2019-04-11 架构设计

hexo 静态博客腾讯云 serverless hugo 阿里云 Amazon Azure FaaS BaaS

前言

Hadoop 版本介绍

准备 docker

安装 Hadoop

方式一：使用 docker pull

方式二：离线导入（推荐）

下载

解压

导入

运行 Hadoop

测试 Hadoop

cloudera live

Hue

下次使用

参考资料

投食