Instalando Apache Hadoop

Esse artigo tende a tentar explicar a instalação e configuração do Apache Hadoop 2 em suas três maneiras de instalação.

[ Hits: 29.670 ]

Por: Eduardo Ferreira Mendes em 14/08/2015 | Blog: https://github.com/z4r4tu5tr4


Instalação do modo Single-Node



1. Modo convencional:

Foi executado download da versão stable do Hadoop (2.6.0 - atual em 13/abril/2014). Disponível em:
Logo após nós podemos descompactar:

# tar xvvf hadoop*

E mover para /usr/local/hadoop (o local recomendado por convenção):

# mv hadoop* /usr/local/hadoop

2. Instalação em outras distribuições:

No caso, eu uso Arch Linux. Então para instalar no Arch:

# yaourt -S hadoop

Existem maneiras simples para executar a instalação no Debian, Ubuntu, Fedora etc. a partir de alguns repositórios.

3. Variáveis de ambiente:

A configuração da variável do Java (ao meu ver) é um pouco chata, então para evitar essa "maldição" podemos configurar o hadoop-env.sh:

# vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

E faremos a seguinte alteração na linha 25:

export JAVA_HOME=[Caminho-de-instação-do-seu-Java]

No meu caso:

export JAVA_HOME=/usr/lib/jvm/default

4. Variável Hadoop

Para facilitar o manuseio dos arquivos do Hadoop, podemos criar algumas variáveis úteis ao bash, como:

HADOOP_INSTALL=/usr/local/hadoop
HADOOP_BIN=/usr/local/hadoop/bin
HADOOP_SBIN=//usr/local/hadoop/sbin

E para executarmos o Hadoop de maneira simples, podemos criar uma direta ao executável do Hadoop:

HADOOP=/usr/local/hadoop/bin/hadoop

Pronto! Seu Hadoop está instalado com sucesso, suas variáveis estão configuradas de uma maneira inteligente. Agora temos que executar um teste básico, só pra verificar como as coisas estão.

Teste:

mkdir input
cp $HADOOP_INSTALL/hadoop/etc/hadoop/*.xml input
hadoop jar $HADOOP_INSTALL/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
cat output/*

Se tudo aconteceu com sucesso, e apareceram algumas boas palavras na tela, parabéns, está tudo feito com sucesso.

Página anterior     Próxima página

Páginas do artigo
   1. O que é o Apache Hadoop
   2. Instalação do modo Single-Node
   3. Instalação do modo Pseudo-Distribuído
   4. Instalação do modo totalmente distribuído
   5. Referências
Outros artigos deste autor
Nenhum artigo encontrado.
Leitura recomendada

Clusters de alta disponibilidade (HA - High Availability)

Debian Linux 4 iniciando o Windows como terminal server

Apertem o cinto, o inittab sumiu!

Teste de estresse entre software livre e soluções proprietárias

Vodafone Mobile Connect Card driver - Um excelente software para modems 3G

  
Comentários
[1] Comentário enviado por HenriqueSantana em 28/04/2016 - 15:47h

Ótimo trabalho, será de grande uso. Mt Obrigado.
Poderia informar os requisitos necessários?

[2] Comentário enviado por z4r4tu5tr4 em 28/04/2016 - 22:08h


[1] Comentário enviado por HenriqueSantana em 28/04/2016 - 15:47h

Ótimo trabalho, será de grande uso. Mt Obrigado.
Poderia informar os requisitos necessários?


Cara, se quiser, me manda um e-mail a gente vai conversando mendesxeduardo at gmail

[3] Comentário enviado por anderson-dhell em 20/02/2017 - 16:30h

parabéns, conteúdo muito bom, eu instalei o modo single node, mas fiquei com algumas dúvidas. To querendo usar o hadoop no meu Tcc, mas tô iniciando agora. gostaria de ver as possibilidades.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts