Pular para o conteúdo

Extraindo texto de arquivos PDF com pstotext

Dica publicada em Linux / Miscelânea
julio henrique maschio jmhenrique
Hits: 16.304 Categoria: Linux Subcategoria: Miscelânea
  • Indicar
  • Impressora
  • Denunciar

Extraindo texto de arquivos PDF com pstotext

Quem já não se deparou com uma vez ou outra ter que copiar textos de arquivos .pdf ou mesmo .ps? Para extrair o texto de apenas uma página, até que vai usar programas gráficos como o xpdf, mas para automatizar tarefas, por exemplo, é necessário que haja um comando que faça isso.

Existe um aplicativo que se chama pstotext (provavelmente ele está empacotado para a sua distribuição, no Debian instale com:

# apt-get install pstotext

Que faz essa tarefa. Apesar do nome sugerir que só funcione com PostScript, ele funciona muito bem com arquivos .pdf também.

O formato de execução é:

$ pstotext arquivo.pdf -output arquivo.txt

Sem a opção -output, a saída do texto formatado é na própria tela do terminal.

Também pode-se utilizar redirecionadores para que a saída seja em um arquivo:

$ pstotext arquivo.pdf > novo_arquivo.txt

(Antes que me perguntem, este programa somente extrai TEXTO)

Para mais opções:

$ pstotext --help

[ ]s, Henry

Amsn e Imlib no Debian

aMSN snapshot - para quem gosta de fortes emoções diariamente

Abrindo o KDE a partir do Windows, com cygwin

"Arczando" o Debian

VMWare - Mapeamento de teclado em máquinas virtuais no Fedora 10

Campanhas para MegaGlest usando Python

Fontes TrueType no Debian

#1 Comentário enviado por birilo em 12/12/2005 - 07:25h
Aos usuários Debian, vai também a dica..

São comandos que vem, geralmente na instalação padrão do Debian..

ps2ascii PS ou PDF para ASC2
ps2pdf ps para PDF
pdf2ps PDF to PS

E assim vai mais uma porrada de comando de conversão
#2 Comentário enviado por willians dutra em 25/03/2007 - 10:28h
valeu a dica dos dois. sou novo no uso de linux e sentia falta de converter arquivos.
#3 Comentário enviado por tedbernacchi em 30/05/2014 - 21:45h
Olá amigo boa noite, estou tentando converter arquivos .ps (PostScript) para texto, mas não estou conseguindo. A sintaxe é a mesma do exemplo acima? A formtação fica boa?? Obrigado!

Contribuir com comentário

Entre na sua conta para comentar.