1. Home Brother
  2. Blog Brother Portugal
  3. Gestão documental
  4. 2020
  5. Como extrair texto de documentos digitalizados
Como extrair texto de documentos digitalizados

Como extrair texto de documentos digitalizados

Manusear documentos digitalizados é algo muito comum, já que é uma forma fácil e eficaz de mover ou partilhar em formato digital os textos impressos anteriormente.
É habitual que, em mutos trabalhos, ou para muitas tarefas, necessite extrair textos de alguns documentos previamente digitalizados. Talvez tenha que o fazer por vezes e não saiba como, ou simplesmente, desconhece que isto é possível de fazer. Seja qual for o seu caso, aqui dizemos-lhe como o fazer de forma fácil e eficaz e, do mesmo modo, as aplicações que pode dar a esta interessante ferramenta.

O que é o OCR?

Se procurar como extrair texto de um documento já impresso através do scanner, o que deve aprender primeiro é o que é um software OCR (Reconhecimento Ótico de Caracteres, em inglês). Isto é, simplesmente, um tipo de programa que permite identificar os caracteres escritos num documento e codificá-los de modo a que o computador os possa trabalhar como texto e não como imagem, com o objetivo de que se possam editar facilmente à posteriori. Como vê, é algo que não tem razão para estar no scanner ou no multifunções, tem mesmo que ser um programa à parte.

Embora lhe possa parecer muito especializado, o uso de um OCR é algo cada vez mais alargado e que se vai aperfeiçoando com o passar dos anos, como tal se tem alguma dúvida da sua eficácia, apenas tem que experimentar e comprovar o quão bem funciona a maioria das vezes.

Podem-se extrair todo o tipo de textos com um programa OCR?

Certamente, esta é a primeira pergunta que vem à mente quando ouve falar do OCR. Inclusivamente é provável que há alguns anos atrás tenha tido contacto com programas de reconhecimento de caracteres e percebido que não eram suficientemente eficazes porque confundiam os caracteres. No final, isso podia fazer com que gastasse mais tempo a corrigir os erros do que a transcrever diretamente o documento impresso, acabando por isso por deixar o programa de lado.

Mas temos boas notícias. Hoje em dia, os programas OCR alcançaram o poder necessário para serem capazes de reconhecer a maioria dos caracteres impressos num documento. Além disso, alguns dos mais poderosos softwares de OCR também são capazes de reconhecer textos manuscritos, embora nesses casos a caligrafia de cada pessoa também tenha muita influência.

Como se utiliza um OCR para extrair textos de documentos digitalizados?

Não existe um só programa OCR para extrair textos e existem algumas diferenças entre eles. Em princípio e geralmente, estes programas – ou aplicações – são obtidos de forma externa ao scanner ou ao equipamento multifunções. As opções são muitas, e vão desde as gratuitas e online às pagas com um toque muito mais profissional, que se instalam no equipamento tal como outros programas tradicionais.

Como dizíamos antes, poderá utilizar diversas aplicações e programas que estão disponíveis na internet para descarregar ou comprar.

Mais de Gestão documental

Também lhe pode interessar...

Error: Generic Text label 'Back to top' not set for language 'pt-PT' (Site: 'MAIN-PT').