Script que obtém informações disponibilizadas a bots pelos sites
Publicado por Renato Alencar (última atualização em 05/02/2014)
[ Hits: 5.678 ]
O script é uma mão na roda pra quem cria bots pra vasculhar sites, é com esse arquivo que não se permite mostrar algum arquivo que o admin do site não quer que apareça nas pesquisas (do Google, por exemplo). É também útil pra se aprender como usar o pacote httplib2.
O script é bem simples e funciona via linha de comando. Se você não tem o httplib2 instalado, você pode baixá-lo em: http://code.google.com/p/httplib2/
Uso:
$ ./getrobots.py <URL>
#!/usr/bin/python # -*- coding: utf-8 -*- # Baixa o arquivo robots.txt do site dado como parametro # # O arquivo robots.txt contem definições para bots que acessam o site # é usado por exemplo pelo bot de pesquisa do Google. # É necessario o pacote httplib2 para se conectar import httplib2 import sys # Faz a requisição HTTP e obtem o arquivo def getRobot(site): # TODO: Criar rotina de validação client = httplib2.Http() response = client.request('http://%s/robots.txt' % site) # Retorna o objeto response return response def main(): if len(sys.argv) < 2: raise Exception, "Use: %s <site>" % sys.argv[0] r = getRobot(sys.argv[1]) if r[0]['status'] <> '200': raise Exception, "CODE %s" % r[0]['status'] print r[1] if __name__ == '__main__': main()
Navegando em formulários com login e senha
Nenhum comentário foi encontrado.
Passkeys: A Evolução da Autenticação Digital
Instalação de distro Linux em computadores, netbooks, etc, em rede com o Clonezilla
Título: Descobrindo o IP externo da VPN no Linux
Armazenando a senha de sua carteira Bitcoin de forma segura no Linux
Enviar mensagem ao usuário trabalhando com as opções do php.ini
Instalando Brave Browser no Linux Mint 22
vídeo pra quem quer saber como funciona Proteção de Memória:
Encontre seus arquivos facilmente com o Drill
Mouse Logitech MX Ergo Advanced Wireless Trackball no Linux
Compartilhamento de Rede com samba em modo Público/Anônimo de forma simples, rápido e fácil
Linux Lite Demorando Muito Para Ligar (2)
Remoção de propaganda com o programa Comskip[AJUDA] (4)