Imagem de texto escaneado convertido em texto puro (OCR)

Publicado por Luis R. C. Silva em 30/10/2012

[ Hits: 11.548 ]

Blog: https://www.vivaolinux.com.br/~luisrcs

 


Imagem de texto escaneado convertido em texto puro (OCR)



Esta dica é para os que querem escanear livros e convertê-los em texto para editá-los.

Instale o GIMP, o tesseract e o tesseract-ocr-por.

Siga os passos:

1. Escaneie a imagem em 600 DPI em modo cores.

2. Abra a imagem no GIMP.

3. Vá no menu: imagem → modo, selecione: Tons de cinza.

4. Vá no menu: cores → Brilho e Contraste. Em brilho coloque: -60 - em contrate coloque: 127.

5. Vá no menu: filtros → Desfocar → Desfocagem gaussiana, e clique em: OK.

6. Vá no menu: filtros → Realçar → Aguçar. Em Acuidade, coloque no máximo e clique em OK.

7. Exporte a imagem com as modificações para um arquivo com extensão ".jpg".

8. Abra um terminal e digite:

tesseract imagem.jpg texto -l por

Onde imagem.jpg é o nome da imagem escaneada, e texto é a saída, que terá extensão ".txt".



Lembrando que todos os comandos devem ser executados dentro da pasta onde encontra-se a imagem escaneada.

Outras dicas deste autor
Nenhuma dica encontrada.
Leitura recomendada

VIM com sintaxe colorida

Assistindo TV Canção Nova no Linux

Google Chrome no Fedora 17

Kate, editor de texto avançado

Cadê o Freeamp?

  

Comentários
[1] Comentário enviado por julio_hoffimann em 30/10/2012 - 22:29h

Ótima dica!

Abraço!

[2] Comentário enviado por Morvan em 01/11/2012 - 09:41h

Bom dia.

Excelente dica. Daquelas que a gente não pode não comentar.
Luis R. C. Silva, sabendo-se que o GIMP tem uma integração com o Python muito boa, será que alguém ainda não desenvolveu um "Wrapper" para estes passos?

Abraços,

Morvan, Usuário Linux #433640.



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts