Filtrar texto de um arquivo html [RESOLVIDO]

1. Filtrar texto de um arquivo html [RESOLVIDO]

Diogo
diogo_flash

(usa Ubuntu)

Enviado em 27/10/2011 - 17:18h

Olá pessoal,
estou tentanto fazer um script shell que faça a extração de todos os textos de um arquivo .html
Para isso, achei melhor fazer a extração de textos que encontram - se entre um sinal de ">" e "<". Estou tentando usar o sed para fazer isso, mas não estou conseguindo. Meu objetivo é pegar todo texto que está entre os simbolos que comecem com > e que terminem com <.

Agradeço desde já.


  


2. MELHOR RESPOSTA

Sandro Marcell
SMarcell

(usa Slackware)

Enviado em 27/10/2011 - 19:25h

Solução genérica:

$ sed 's/<[^>]*>//g' arquivo.html > arquivo.txt





Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts