OCR no Ubuntu 9.04 utilizando tesseract e gscan2pdf

Publicado por Angelo Marcondes de Oliveira Neto em 15/09/2009

[ Hits: 30.407 ]

 


OCR no Ubuntu 9.04 utilizando tesseract e gscan2pdf



OCR de qualidade sob Linux existe sim! Tesseract e gscan2pdf são a solução para quem precisa desta funcionalidade no Linux. Leia o post e aprenda a instalar estas ferramentas rapidamente.

Recentemente fui instigado várias vezes pelo meu grande amigo André Brun, da lista de discussão Gitec (Grupo Interlegis de Tecnologia). André, que trabalha na Câmara Municipal de Agudo, lá no distante Rio Grande do Sul, me questionou várias vezes sobre qual a melhor alternativa de scanner para o Ubuntu e sobre qual o melhor software para a realização de OCR (Optical Character Recognition ou Reconhecimento Ótico de Caracteres), com a possibilidade de gerar um arquivo de PDF.

Para quem não conhece o André, ele é daqueles gaúchos autênticos e sistemáticos, um exímio defensor e utilizador de software livre, o qual prefere voltar a fazer legislação na pena, do que utilizar o MS-Word. ;)

Como é muito ruim desapontar um grande amigo, resolvi realizar uma pesquisa mais profunda sobre o OCR no Ubuntu, e assim, acabei chegando ao software livre tesseract-ocr, o qual faz, e muito bem por sinal, o reconhecimento ótico de caracteres no Linux.

Mas infelizmente o tal "tesseract" trabalha em linha de comando, o que me causou uma certa decepção, já que é complexo implementar produtos que utilizam linha de comando para usuários não-técnicos. Não que o André não seja técnico, mas eu já estava pensando em utilizar aqui no trabalho.

Mas como a decepção pode ser a semente da motivação, aprofundei minha pesquisa e acabei encontrando este ótimo artigo do blog Thadeu Penna' s Wiki, o qual falava sobre o OCR de qualidade no Linux: agora é fácil!. No artigo, o autor apresenta, além o tesseract, um outro software chamado gscan2pdf, que veio preencher perfeitamente a lacuna do tesseract e suas linhas de comandos.
Linux: OCR no Ubuntu/Linux 9.04, utilizando tesseract e gscan2pdf
Complementando as informações do artigo do Thadeu, vou descrever abaixo o processo de instalação do tesseract e do gscan2pdf no Ubuntu 9.04, para isso, vá até o terminal e digite:

sudo apt-get install tesseract-ocr tesseract-ocr-por gscan2pdf

Pronto, a parti daí o gscan2pdf estará listado no menu Aplicativos, submenu Gráficos.

Apesar do uso do gscan2pdf ser um tanto quanto intuitivo, fiz um pequeno vídeo onde demonstro sua utilização, o qual posto abaixo. Aproveitem!
Outras dicas deste autor

GDRAIS Java versão 2009 para Linux - como instalar

Leitura recomendada

Migração NIS -> LDAP + SAMBA mantendo a senha

Papercraft baseado no Tux

Usando o tar.xz + várias threads e compactação extrema

Recuperando o GRUB

Conexão SSH entre servidores Linux sem senha

  

Comentários
[1] Comentário enviado por tks7lucas em 14/12/2009 - 19:32h

Muito obrigado, tu é muito didático e com certeza seu tutorial ajuda muito os iniciantes que querem aderir ao livre.

[2] Comentário enviado por feitosagoncalves em 16/08/2010 - 02:21h

Testei o tesseract e o gscan2pdf, em termos de OCR em si, não fica devendo nada aos programas pagos, na hora de salvar, entretanto, não consegui fazer algo que queria...

No ABBY Fine reader, quando queremos salvar em PDF, existe a opção de salvar o texto ou salvar a imagem "com o texto por baixo", conforme a figura abaixo:

http://www.imagebam.com/image/c1c78f93276763


A vantagem desse método é que você conserva o layout original da imagem e agrega o texto para fins de Ctrl-C Ctrl-V...

A dúvida é, como fazer isso no Linux?

Obrigado!



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts