Convertendo imagens e documentos em texto puro (.txt)

Publicado por Perfil removido em 28/10/2020

[ Hits: 4.911 ]

 


Convertendo imagens e documentos em texto puro (.txt)



Nessa dica vou apresentar o comando tesseract para transformar qualquer imagem e/ou documento pdf em txt!

Para instalar no Debian e derivados (Ubuntu, Mint, Elementary):

sudo apt install tesseract-ocr

Em outras distribuições, procure pelo nome "tesseract" nos repositórios.

Agora, para converter em texto:

tesseract document.pdf document

O primeiro parâmetro é o arquivo de entrada para conversão, e o segundo parâmetro é o arquivo de saída para salvar o arquivo .txt. O tesseract salva automaticamente o arquivo de saída com a extensão .txt.

No caso dos arquivos de imagens (.jpg, .png), quanto mais nítido for o texto melhor será o resultado no arquivo texto de saída.

Para mais informações:

man tesseract

Exemplo de arquivo de entrada (print em .png tirado dessa dica):
Exemplo de arquivo de saída em .txt:
Outras dicas deste autor

Instalando o Firefox 2.0 no Conectiva 10

Kulina Graphics: biblioteca gráfica leve para desenvolver aplicativos

Instalando o Firefox 2.0 no Mandriva 2006

Instalação do MySQL no FreeBSD

Como abrir arquivos .docx, .xlsx, .pptx no OpenOffice ou BROffice

Leitura recomendada

Iniciando o Mplayer em tela cheia na segunda placa de vídeo

Temas unificados no openSUSE

SELinux - Resolvendo problemas na carga de módulos .so

Servidor Debian - Erro: Não existem chaves públicas para os seguintes IDs de chaves [Resolvido]

Como agendar o desligamento do seu Linux

  

Comentários
[1] Comentário enviado por maurixnovatrento em 04/11/2020 - 21:03h


Divino, melhor que aqueles programas do windows.

___________________________________________________________
[code]Conhecimento não se Leva para o Túmulo.
https://github.com/MauricioFerrari-NovaTrento [/code]

[2] Comentário enviado por maurixnovatrento em 04/11/2020 - 21:06h


Funciona como OCR, pelo que eu tô vendo.

___________________________________________________________
[code]Conhecimento não se Leva para o Túmulo.
https://github.com/MauricioFerrari-NovaTrento [/code]



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts