Baixando conteúdo de alguns sites usando wget

Publicado por leandro de jesus fachola em 09/08/2008

[ Hits: 10.627 ]

 


Baixando conteúdo de alguns sites usando wget



Esta dica vai para aquelas situações que acontecem muito nos dias de hoje... ver algo interessante quando navegamos pela internet e não ter tempo para ler. Pois bem, usando o poderoso wget do Linux, podemos salvar a página para lermos depois.

Para baixar um arquivo com o wget, basta dar o comando "wget (caminho do arquivo)". Exemplo:

Abra o shell e digite:

wget <nome do site>

Veja um exemplo pratico...

wget http://wiki.mandriva.com/pt/P%C3%A1gina_principal
--2008-08-08 22:14:57-- http://wiki.mandriva.com/pt/P%C3%A1gina_principal
Resolvendo wiki.mandriva.com... 212.85.147.162
A conectar wiki.mandriva.com|212.85.147.162|:80... conectado!
HTTP requisição enviada, aguardando resposta... 200 OK
Tamanho: não especificado [text/html]
A gravar em: 'Página_principal'

    [   <=>                                  ] 20.122      25,5K/s   em 0,8s

2008-08-08 22:15:05 (25,5 KB/s) - 'Página_principal' gravado [20122]

Aviso: Em alguns sites o wget não funciona, pois são bloqueados para tal tarefa.

Para baixar todas as imagens podemos usar:

wget -r -A ".jpg" <nome do site>

Obs.: o wget possui vários parâmetros, mas achei conveniente citar apenas estes. Na minha opinião para a finalidade citada no título, está de bom tamanho.

Para quem quer adquirir o wget:
Obrigado.

Outras dicas deste autor

Instalando amule e atualizando lista de servidores (SuSE, ALTLinux, PCLinuxOS, Mandriva, Fedora, RedHat e derivados)

Leitura recomendada

HTTP headers, HTTP por força bruta

Filtrando pesquisa por extensão de arquivos no Google

Bloqueando o Ultrasurf 10.04

Automatizando o download de fotos de um determinado site

Zoho Mail - Serviço gratuito similar ao Google Apps Works

  

Comentários
[1] Comentário enviado por luisbuso em 10/08/2008 - 23:20h

boa dica amigo.

abraço.

[2] Comentário enviado por Morvan em 15/12/2014 - 12:07h

Bom dia.

Para baixar conteúdo do sítio inteiro ou de subpasta (considerando que este não esteja protegido e que você disponha de bastante espaço):

wget -r -erobots=off -np "http://EndereçoDo Sitio/PastaASerCopiada".


O "-r" permite uma cópia recursiva. Há muitos parâmetros, como bem citou o autor da excelente dica, Leandro de Jesus Fachola. Basta consultar a ajuda do comando.

Morvan, Usuário Linux #433640 (Fedora 21-x_64). Seja Legal; seja Livre. Use Linux.



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts