Extraindo Dados de Sites da Internet pelo Terminal

Publicado por Mauricio Ferrari em 15/09/2020

[ Hits: 6.226 ]

Blog: https://www.youtube.com/@LinuxDicasPro

 


Extraindo Dados de Sites da Internet pelo Terminal



Resolvi fazer essa dica porque é difícil encontrar um conteúdo tão simples como esse na internet. Com certeza é um recurso pouco usado e portanto, não muito divulgado.

Precisei fazer um script que acessasse um site e extraísse o conteúdo em forma de texto para depois de lá tirar as informações necessárias.

Devido à persistência, acabei encontrando um comando que supriu as necessidades e me possibilitou extrair o conteúdo que eu precisava com sucesso. O comando é o w3m.

Sua utilização é muito simples:

w3m -dump https://www.google.com.br/

Tem que usar com o parâmetro -dump, senão ele vai entrar no site pelo terminal, porque afinal, é para isso que é o w3m, assim como o links e links2.

Aí você faz a exportação dessa forma:

w3m -dump https://www.google.com.br/ >> conteudo

Agora vamos visualizar o arquivo conteúdo:

cat conteudo
Pesquisa Imagens Maps Play YouTube Notícias Gmail Drive Mais »
Histórico da Web | Configurações | Fazer login

                                    Google

             [                                                       ]    Pesquisa
                        [Pesquisa Google] [Estou com sorte]            avançada

                    Disponibilizado pelo Google em: English
   Soluções de publicidade     Soluções empresariais     Sobre o Google
                                 Google.com.br

                         © 2020 - Privacidade - Termos

E assim, fica mais uma dica.

Outras dicas deste autor

Corrigindo a Falha de Segmentação do VirtualBox 6.1.18 no Slackware Current [RESOLVIDO]

Nulloy - Você conhecia esse reprodutor de áudio?

ExMplayer no Linux Mint 20

Comando "less" Colorido no Shell

Conky Manager no Linux Mint 20

Leitura recomendada

Movendo vários arquivos ou diretórios ao mesmo tempo para um diretório [Iniciante]

rcconf - Debian Runlevel Configuration Tool

Backup de dados no Linux

Instalação do eDEX-UI no Linux

Como capturar uma janela específica usando o ImageMagick

  

Comentários
[1] Comentário enviado por cizordj em 15/09/2020 - 14:04h

Muito interessante, parabéns pela dica!

[2] Comentário enviado por maurixnovatrento em 15/09/2020 - 19:48h


Valeu.

___________________________________________________________
[code]Conhecimento não se Leva para o Túmulo.
https://github.com/MauricioFerrari-NovaTrento [/code]



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts