Quem já leu o meu outro artigo sabe que eu fiz um bloqueio geral de todos os
bots no meu site devido a roubos de conteúdo para treinos de modelos de linguagem.
O propósito desta postagem é mostrar o resultado deste bloqueio assim como alguns
logs de acesso que captei nos últimos meses que podem ser interessantes para alguns
webmasters de plantão. Além dos resultados quero discorrer sobre algumas ações tomadas e a motivação por trás de cada uma delas, assim como implicações éticas de manter um blog hospedado.
## O que
Meu site estava sendo atacado por bots desconhecidos de várias partes do mundo, por estar hospedado na
Cloudflare grande parte dos ataques foram mitigados automaticamente. Por alguma razão desconhecida estavam tentando derrubar o meu site, mas alguns bots não eram simplesmente bots de ataque, alguns eram
crawlers que usavam do meu conteúdo para alimentar inteligências artificiais.
## Quem
A maior parte dos bots vinha dos
Estados Unidos, uma pequena parcela vinha da
Singapura e a
China enquanto o resto vinha de partes aleatórias do mundo, sendo metade dos bots benignos e a outra metade malignos.
### Bots benignos
Eu considero como
benigno todo e aquele bot que coloca uma identificação em seu
user-agent onde eu posso entrar em contato com o seu dono e pedir para me tirar da sua lista de
scans,. Um deles foi um bot da
Palo Alto Networks que possuía um endereço de e-mail para contato e eles foram super cordiais comigo.
Expanse, a Palo Alto Networks company,
searches across the global IPv4 space
multiple times per day to identify customers;
presences on the Internet.
If you would like to be excluded from our scans,
please send IP addresses/domains to: s******o@p**************s.com
Boa parte do tráfego que vinha dos bots benignos foi diminuída, entrei em contato com a maioria deles e todos me deram resposta.
We've added cezarcampos.com.br and zepintor.com.br to our excludelist.
It can take up to a week for the system to update excluded ranges and
domains, but once they propagate you will stop seeing connections from
our scanners. If you do still see activity after a week from our
ranges, please reach out
again with the time you observed scanning activity, and we'll
troubleshoot.
No entanto, nem todos os bots são assim.
### Bots malignos
A maioria dos bots malignos escaneavam diretórios nos meus sites para descobrir se é hospedado no
Wordpress.
Isso no dia 24 de janeiro de 2024.
Outro detalhe é que esses bots usam protocolos mais antigos como HTTP/1.1, TLS 1.2 e IPv4. Raramente algum bot maligno aparecia nos registros usando algum IPv6. O que aparecia no
user-agent em sua maioria eram imitações de navegadores populares como
Chrome e
Firefox, em nenhum caso o bot maligno se identificava com endereços de e-mail para contato.
## Onde
Agora vou lhes mostrar de que maneira os bots obtinham informações sobre os meus sites.
1- Mecanismos de busca
Os mecanismos de busca são usados pelos bots de inteligência artificial para encontrar sites de conteúdo para serem roubados, abaixo eu mostro as palavras-chave mais estranhas que levaram ao meu site de acordo com o
Bing Webmasters.
É óbvio que os robôs não clicaram, por serem crawlers eles apenas copiam os endereços na memória e os acessam diretamente. Logicamente também, os robôs malignos não respeitavam o arquivo
Se você quer manter um blog hoje em dia, considere adotar medidas para que o seu conteúdo não seja usado para treinar modelos de linguagem proprietários. Ao impedir que os robôs acessem o seu site, você também mitiga o treinamento dessas
. Considere comprar um domínio e usar um serviço gratuito como o da
pages ou qualquer outro serviço que não lhe ofereça proteção contra bots; caso você os use, você não terá nenhum controle sobre o que entra e sai do seu website. É isso.
Caso esteja interessado em obter mais dados sobre o meu caso, considere a leitura: