Extraindo texto de arquivos PDF com pstotext

Publicado por julio henrique maschio em 10/12/2005

[ Hits: 15.476 ]

 


Extraindo texto de arquivos PDF com pstotext



Quem já não se deparou com uma vez ou outra ter que copiar textos de arquivos .pdf ou mesmo .ps? Para extrair o texto de apenas uma página, até que vai usar programas gráficos como o xpdf, mas para automatizar tarefas, por exemplo, é necessário que haja um comando que faça isso.

Existe um aplicativo que se chama pstotext (provavelmente ele está empacotado para a sua distribuição, no Debian instale com:

# apt-get install pstotext

Que faz essa tarefa. Apesar do nome sugerir que só funcione com PostScript, ele funciona muito bem com arquivos .pdf também.

O formato de execução é:

$ pstotext arquivo.pdf -output arquivo.txt

Sem a opção -output, a saída do texto formatado é na própria tela do terminal.

Também pode-se utilizar redirecionadores para que a saída seja em um arquivo:

$ pstotext arquivo.pdf > novo_arquivo.txt

(Antes que me perguntem, este programa somente extrai TEXTO)

Para mais opções:

$ pstotext --help

[ ]s, Henry

Outras dicas deste autor

Amsn e Imlib no Debian

aMSN snapshot - para quem gosta de fortes emoções diariamente

Leitura recomendada

Wallpapers não oficiais do elementary OS

Já pensou em adquirir adesivos grátis do Rundeck?

VI (VIm): Alterando todas repetições de uma mesma palavra

Undercover Mode do Kali Linux no Debian, Ubuntu e Derivados de Ambas

Como extrair o conteúdo de pacotes deb em qualquer distro

  

Comentários
[1] Comentário enviado por birilo em 12/12/2005 - 07:25h

Aos usuários Debian, vai também a dica..

São comandos que vem, geralmente na instalação padrão do Debian..

ps2ascii PS ou PDF para ASC2
ps2pdf ps para PDF
pdf2ps PDF to PS

E assim vai mais uma porrada de comando de conversão

[2] Comentário enviado por willians dutra em 25/03/2007 - 10:28h

valeu a dica dos dois. sou novo no uso de linux e sentia falta de converter arquivos.

[3] Comentário enviado por tedbernacchi em 30/05/2014 - 21:45h

Olá amigo boa noite, estou tentando converter arquivos .ps (PostScript) para texto, mas não estou conseguindo. A sintaxe é a mesma do exemplo acima? A formtação fica boa?? Obrigado!



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts