1. Home Brother
  2. Suporte
  3. Conselhos-de-utilizacao
  4. Como extrair texto de documentos digitalizados
Como extrair texto de documentos digitalizados

Como extrair texto de documentos digitalizados

Manusear documentos digitalizados é algo muito comum, já que é uma forma fácil e eficaz de mover ou partilhar em formato digital os textos impressos anteriormente.
É habitual que, em mutos trabalhos, ou para muitas tarefas, necessite extrair textos de alguns documentos previamente digitalizados. Talvez tenha que o fazer por vezes e não saiba como, ou simplesmente, desconhece que isto é possível de fazer. Seja qual for o seu caso, aqui dizemos-lhe como o fazer de forma fácil e eficaz e, do mesmo modo, as aplicações que pode dar a esta interessante ferramenta.

O que é o OCR?

Se procurar como extrair texto de um documento já impresso através do scanner, o que deve aprender primeiro é o que é um software OCR (Reconhecimento Ótico de Caracteres, em inglês). Isto é, simplesmente, um tipo de programa que permite identificar os caracteres escritos num documento e codificá-los de modo a que o computador os possa trabalhar como texto e não como imagem, com o objetivo de que se possam editar facilmente à posteriori. Como vê, é algo que não tem razão para estar no scanner ou no multifunções, tem mesmo que ser um programa à parte.

Embora lhe possa parecer muito especializado, o uso de um OCR é algo cada vez mais alargado e que se vai aperfeiçoando com o passar dos anos, como tal se tem alguma dúvida da sua eficácia, apenas tem que experimentar e comprovar o quão bem funciona a maioria das vezes.

Podem-se extrair todo o tipo de textos com um programa OCR?

Certamente, esta é a primeira pergunta que vem à mente quando ouve falar do OCR. Inclusivamente é provável que há alguns anos atrás tenha tido contacto com programas de reconhecimento de caracteres e percebido que não eram suficientemente eficazes porque confundiam os caracteres. No final, isso podia fazer com que gastasse mais tempo a corrigir os erros do que a transcrever diretamente o documento impresso, acabando por isso por deixar o programa de lado.

Mas temos boas notícias. Hoje em dia, os programas OCR alcançaram o poder necessário para serem capazes de reconhecer a maioria dos caracteres impressos num documento. Além disso, alguns dos mais poderosos softwares de OCR também são capazes de reconhecer textos manuscritos, embora nesses casos a caligrafia de cada pessoa também tenha muita influência.

Como se utiliza um OCR para extrair textos de documentos digitalizados?

Não existe um só programa OCR para extrair textos e existem algumas diferenças entre eles. Em princípio e geralmente, estes programas – ou aplicações – são obtidos de forma externa ao scanner ou ao equipamento multifunções. As opções são muitas, e vão desde as gratuitas e online às pagas com um toque muito mais profissional, que se instalam no equipamento tal como outros programas tradicionais.

Como dizíamos antes, poderá utilizar diversas aplicações e programas que estão disponíveis na internet para descarregar ou comprar.

Também lhe pode interessar...

Error: Generic Text label 'Back to top' not set for language 'pt-PT' (Site: 'MAIN-PT').