Script que obtém informações disponibilizadas a bots pelos sites
Publicado por Renato Alencar (última atualização em 05/02/2014)
[ Hits: 5.879 ]
O script é uma mão na roda pra quem cria bots pra vasculhar sites, é com esse arquivo que não se permite mostrar algum arquivo que o admin do site não quer que apareça nas pesquisas (do Google, por exemplo). É também útil pra se aprender como usar o pacote httplib2.
O script é bem simples e funciona via linha de comando. Se você não tem o httplib2 instalado, você pode baixá-lo em: http://code.google.com/p/httplib2/
Uso:
$ ./getrobots.py <URL>
#!/usr/bin/python
# -*- coding: utf-8 -*-
# Baixa o arquivo robots.txt do site dado como parametro
#
# O arquivo robots.txt contem definições para bots que acessam o site
# é usado por exemplo pelo bot de pesquisa do Google.
# É necessario o pacote httplib2 para se conectar
import httplib2
import sys
# Faz a requisição HTTP e obtem o arquivo
def getRobot(site):
# TODO: Criar rotina de validação
client = httplib2.Http()
response = client.request('http://%s/robots.txt' % site)
# Retorna o objeto response
return response
def main():
if len(sys.argv) < 2:
raise Exception, "Use: %s <site>" % sys.argv[0]
r = getRobot(sys.argv[1])
if r[0]['status'] <> '200':
raise Exception, "CODE %s" % r[0]['status']
print r[1]
if __name__ == '__main__':
main()
Conversor de vídeos do YouTube para MP3
Downloader modo texto - Python 3
Cotação atual do dólar - versão Python
Python script para inundação de email
Nenhum comentário foi encontrado.
IA Turbina o Desktop Linux enquanto distros renovam forças
Como extrair chaves TOTP 2FA a partir de QRCODE (Google Authenticator)
Linux em 2025: Segurança prática para o usuário
Desktop Linux em alta: novos apps, distros e privacidade marcam o sábado
IA chega ao desktop e impulsiona produtividade no mundo Linux
Atualizando o Fedora 42 para 43
Como saber se o seu e-mail já teve a senha vazada?
Como descobrir se a sua senha já foi vazada na internet?
Preciso recuperar videos *.mp4 corrompidos (4)
\Boot sem espaço em disco (Fedora KDE Plasma 42) (7)
Secure boot, artigo interessante, nada técnico. (1)









