Extraindo texto de arquivos PDF com pstotext

Publicado por julio henrique maschio em 10/12/2005

[ Hits: 15.509 ]

 


Extraindo texto de arquivos PDF com pstotext



Quem já não se deparou com uma vez ou outra ter que copiar textos de arquivos .pdf ou mesmo .ps? Para extrair o texto de apenas uma página, até que vai usar programas gráficos como o xpdf, mas para automatizar tarefas, por exemplo, é necessário que haja um comando que faça isso.

Existe um aplicativo que se chama pstotext (provavelmente ele está empacotado para a sua distribuição, no Debian instale com:

# apt-get install pstotext

Que faz essa tarefa. Apesar do nome sugerir que só funcione com PostScript, ele funciona muito bem com arquivos .pdf também.

O formato de execução é:

$ pstotext arquivo.pdf -output arquivo.txt

Sem a opção -output, a saída do texto formatado é na própria tela do terminal.

Também pode-se utilizar redirecionadores para que a saída seja em um arquivo:

$ pstotext arquivo.pdf > novo_arquivo.txt

(Antes que me perguntem, este programa somente extrai TEXTO)

Para mais opções:

$ pstotext --help

[ ]s, Henry

Outras dicas deste autor

aMSN snapshot - para quem gosta de fortes emoções diariamente

Amsn e Imlib no Debian

Leitura recomendada

ConvertIT - Excelente conversor de vídeo para Ubuntu Linux

KTorrent e Transmission - Instalação no CentOS 6.X

Hot Dog Linux - interface gráfica que imita o Windows 3.1, Mac OS clássico e Amiga

Como pegar mapas para UrbanTerror facilmente

Slackware 13 - Perfeito para computadores antigos!

  

Comentários
[1] Comentário enviado por birilo em 12/12/2005 - 07:25h

Aos usuários Debian, vai também a dica..

São comandos que vem, geralmente na instalação padrão do Debian..

ps2ascii PS ou PDF para ASC2
ps2pdf ps para PDF
pdf2ps PDF to PS

E assim vai mais uma porrada de comando de conversão

[2] Comentário enviado por willians dutra em 25/03/2007 - 10:28h

valeu a dica dos dois. sou novo no uso de linux e sentia falta de converter arquivos.

[3] Comentário enviado por tedbernacchi em 30/05/2014 - 21:45h

Olá amigo boa noite, estou tentando converter arquivos .ps (PostScript) para texto, mas não estou conseguindo. A sintaxe é a mesma do exemplo acima? A formtação fica boa?? Obrigado!



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts