Computação Distribuída com TORQUE Resource Manager

O TORQUE Resource Manager fornece controle sobre trabalhos de grupo e recursos de computação distribuída. É um produto Open Source avançado, baseado no projeto original PBS e incorpora o melhor da comunidade e do desenvolvimento profissional. Ele está atualmente em uso em dezenas de milhares de aplicações governamentais, acadêmicas e sites comerciais em todo o mundo.

[ Hits: 23.200 ]

Por: Juno Kim em 28/08/2013 | Blog: http://www.kim.eti.br


Revisão



Verificando todas as filas e propriedades configuradas:

# qstat -q

Saída:

 server:kmn

 Quere  Memory  CPU Time  Walltime  Node  Run  Que  Lm  State

 -----  ------  --------  --------  ----  ---  ---  --  -----

 batch  --      --        --        --    0    0    --  ER
                                                ---  ---
                                                0    0


Verificando uma configuração adicional:

# qmgr -c 'p s'

Saída:

 #
 # Create queues and set their attributes
 #
 #
 # Create and define queue batch
 #
 create queue batch
 set queue batch queue_type = Execution
 set queue batch resources_default.nodes = 1
 set queue batch resources_default.walltime = 01:00:00
 set queue batch enabled = True
 set queue batch started = True
 #
 # Set server attributes.
 #
 set server scheduling = True
 set server acl_hosts = kmn
 set server managers = user1@kmn
 set server operators = user1@kmn
 set server default_queue = batch
 set server log_events = 511
 set server mail_from = adm
 set server scheduler_iteration = 600
 set server node_check_rate = 150
 set server tcp_timeout = 300
 set server job_stat_rate = 45
 set server poll_jobs = True
 set server mom_job_sync = True
 set server keep_completed = 300
 set server next_job_number = 0


Verificando se todos os nós estão corretamente configurados e livres:

# pbsnodes -a

Saída:

 node001
   state=free
   np=2
   properties=bigmem,fast,ia64,smp
   ntype=cluster
   status=rectime=1328810402,varattr=,jobs=,
state=free,netload=6814326158,gres=,loadave=0.21,ncpus=6,
physmem=8193724kb,
availmem=13922548kb,totmem=16581304kb,idletime=3,
nusers=3,nsessions=18,sessions=1876 1120 1912 1926 
1937 1951 2019 2057 28399 2126 2140 2323 5419 17948 
19356 27726 22254 29569,uname=Linux kmn 2.6.38-11-generic 
 #48-Ubuntu SMP Fri Jul 29 19:02:55 UTC 2011 x86_64,opsys=linux
   mom_service_port = 15002
   mom_manager_port = 15003
   gpus = 0


Enviando trabalhos para a fila "NUNCA FAÇA ISSO COMO ROOT":

su - testuser
$ echo "sleep 30" | qsub


Verificando os trabalhos:

# qstat

 Job id   Name   User      Time Use  S  Queue
 ------   -----  ----      --------  -- -----
 0.kmn    STDIN  knielson         0  Q  batch


Conclusão

O PBS TORQUE é uma ferramenta com uma imensa gama de aplicações e pode ser utilizada em grande escala.

Diversas universidades e empresas estão utilizando o PBS TORQUE em suas aplicações.

Fiz um pequeno experimento para demonstrar a facilidade de configuração da ferramenta e seus recursos e uma noção do seu "poderio atômico".

Agradeço a todos e espero ter contribuído!

Referências


Página anterior    

Páginas do artigo
   1. O que é o TORQUE?
   2. Instalação e configuração - I
   3. Instalação e configuração - II
   4. Testes dos cluster
   5. Revisão
Outros artigos deste autor

A essência de ser Livre

Configurando o proftpd com autenticação de usuário pelo passwd

Computação Distribuída com TORQUE Resource Manager - Parte 2

Leitura recomendada

Impressora JPG no Linux compartilhada para Windows

Subversion (SVN) com autenticação pelo LDAP

Weta Digital + Linux = Avatar - Um case de sucesso

Instalando o Macromedia Flash MX no Debian

Semantic Forms no MediaWiki

  
Comentários
[1] Comentário enviado por leodamasceno em 28/08/2013 - 13:45h

Muito interessante. Tenho total interesse em testar essa ferramenta. Parabens pelo artigo.

[2] Comentário enviado por edul0pes em 29/08/2013 - 15:56h

Parabéns pelo artigo.

[3] Comentário enviado por gnumoksha em 02/09/2013 - 13:41h

Interessante. Obrigado pelo artigo.

Em tempo, por que tanta memoria swap?

[4] Comentário enviado por juno em 02/09/2013 - 17:12h

Olá amigo tobiasgnu,
O motivo de ter a memória extensa é para precaver os nós de travarem pois rodamos um programa de reconhecimento de fala que ocupa 100% da memória física em quanto carrega.


[5] Comentário enviado por fabiofima em 08/04/2016 - 13:30h

Olá, primeiramente, obrigado pelo tutorial, como sempre desse site, muito bem explicado e didático.
Instalei o toque no nosso cluster aqui, tal contendo 1 head node e 6 slaves. A instalação e configuração deu tudo certo, o pbsnodes -a mostra corretamente os nodos, em estado "free". Se submeto um submitionfile.sh com um comando básico, como por exemplo wget ou uma sequencia de locates, ele consegue escalonar o job, executa, ficando em R no qstat até acabar e finaliza... Mas quando submeto uma execução de um software que usamos aqui chamado Gromacs, que tem instalado em todos os slave nodes, ele vai para estado E e C no qstat, sem deixar nenhum log, erro, output, nada... Nem no "Torque/serv_logs"... Se executo o mesmo comando, localmente no nodo, sem usar o torque, ele executa e fica correto como precisava ser.
Alguém poderia me ajudar? Não forneci mais informações porque não sei nem achar qual é o erro.
Obrigado desde já!!!


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts