Instalando Apache Hadoop

Esse artigo tende a tentar explicar a instalação e configuração do Apache Hadoop 2 em suas três maneiras de instalação.

[ Hits: 29.691 ]

Por: Eduardo Ferreira Mendes em 14/08/2015 | Blog: https://github.com/z4r4tu5tr4


Instalação do modo totalmente distribuído



Para configurar o modo totalmente distribuído você deve configurar o modo pseudo-distribuído como vimos na página anterior.

Existem poucas diferenças entre a configuração do pseudo-distribuído e o modo completamente distribuído. Na verdade, o Hadoop só precisa estar instalado em todos os nós do nosso cluster e podemos fazer isso de uma maneira muito simples:

# rsync -avxP /usr/local/hadoop root@[ip_do_cliente]:/usr/local/hadoop

Mas para que isso aconteça de uma maneira transparente temos que configurar o SSH do server, para autenticação sem senha, em todos os outros nós que farão parte do nosso cluster como visto anteriormente.

Os arquivos XML tem algumas pequenas modificações:

core-site.xml - aqui definimos o uso do HDFS e o endereço do seu master e a porta que será usada:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://NOME_DO_SEU_MASTER:9000</value>
    </property>
</configuration>

hdfs-site.xml - aqui está sendo definido o numero de replicações de cada arquivo do HDFS:

<configuration>
    <property>
            <name>dfs.replication</name>
            <value>3</value>
    </property>
</configuration>

mapred-site.xml - aqui passamos a bola do gerenciador de MapReduce para o Yarn e dizemos quem vai ser o Master para distribuir tarefas:

<configuration>
    <property>
            <name>mapred.job.tracker</name>
            <value>NOME_DO_SEU_MASTER:5431</value>
    </property>
    <property>
            <name>mapred.framework.name</name>
            <value>yarn</value>
    </property>
</configuration>

yarn-site.xml:

<configuration>
    <property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
            <value>NOME_DO_SEU_MASTER:8025</value>
        </property>
        <property>
            <name>yarn.resourcemanager.scheduler.address</name>
            <value>NOME_DO_SEU_MASTER:8035</value>
    </property>
        <property>
            <name>yarn.resourcemanager.address</name>
            <value>NOME_DO_SEU_MASTER:8050</value>
        </property>
</configuration>

Todos os outros nós precisam estar nomeados no seu /etc/hosts, como por exemplo:

hadoopmaster [IP]
hadoopslave1 [IP]
hadoopslave2 [IP]
hadoopslave3 [IP]
hadoopslave4 [IP]
hadoopslave5 [IP]
hadoopslave6 [IP]
hadoopslave7 [IP]
hadoopslave8 [IP]
hadoopslave9 [IP]

Agora, dois novos arquivos precisam ser criados dentro de /usr/local/hadoop/etc/hadoop. slaves - que são todos os computadores que farão parte do nosso cluster como "clientes":

hadoopslave1
hadoopslave2
hadoopslave3
hadoopslave4
hadoopslave5
hadoopslave6
hadoopslave7
hadoopslave8
hadoopslave9

master - que é o computador responsável pelo gerenciamento dos nós:

hadoopmaster

Teste de funcionamento: acesse http://localhost:8088

Página anterior     Próxima página

Páginas do artigo
   1. O que é o Apache Hadoop
   2. Instalação do modo Single-Node
   3. Instalação do modo Pseudo-Distribuído
   4. Instalação do modo totalmente distribuído
   5. Referências
Outros artigos deste autor
Nenhum artigo encontrado.
Leitura recomendada

Entendendo o TCP/IP

MultiHeads no Linux

Configuração universal do servidor X (modo gráfico)

Acessando o celular Siemens MC60 no Linux

Instalando e configurando o SSH

  
Comentários
[1] Comentário enviado por HenriqueSantana em 28/04/2016 - 15:47h

Ótimo trabalho, será de grande uso. Mt Obrigado.
Poderia informar os requisitos necessários?

[2] Comentário enviado por z4r4tu5tr4 em 28/04/2016 - 22:08h


[1] Comentário enviado por HenriqueSantana em 28/04/2016 - 15:47h

Ótimo trabalho, será de grande uso. Mt Obrigado.
Poderia informar os requisitos necessários?


Cara, se quiser, me manda um e-mail a gente vai conversando mendesxeduardo at gmail

[3] Comentário enviado por anderson-dhell em 20/02/2017 - 16:30h

parabéns, conteúdo muito bom, eu instalei o modo single node, mas fiquei com algumas dúvidas. To querendo usar o hadoop no meu Tcc, mas tô iniciando agora. gostaria de ver as possibilidades.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts