removido
(usa Nenhuma)
Enviado em 02/06/2016 - 23:14h
Eu de um tempo para cá tenho feito isto com o lynx. Opção -dump.
Ao final da saída do dump aparecem todas as ligações href limpas sem as tags.
O único senão é que elas aparecem numeradas em ordem.
Mas estes números seguem um padrão perfeitamente limpáve com o sed.
lynx -dump
www.site.com.br/index.html | egrep -i '\s+[ 1][0-9]\. ' | sed -r 's/\s+[ 1][0-9]\. //g' | while read i; do wget -c -t 0 -r -x -k -p -np "$i"; done
Eu montei o comando acima passo a passo
A ele pode ser adicionado um egrep "\.pdf$" ou somar esta regex ao final do egrep do comando para pegar apenas as linhas que iniciam com números e terminam com a string pdf.
Eu executo este miniscript diretamente na linha de comando.
Depois que passei a usar lynx ficou menos trabalhoso.
----------------------------------------------------------------------------------------------------------------
# apt-get purge systemd (não é prá digitar isso!)
Encryption works. Properly implemented strong crypto systems are one of the few things that you can rely on. Unfortunately, endpoint security is so terrifically weak that NSA can frequently find ways around it. — Edward Snowden