Faça OCR de PDFs
O recurso OCR do UPDF permite converter o texto digitalizado de um documento PDF em conteúdo pesquisável e editável. Os dados nas imagens também podem ser editados após o uso deste recurso que torna o documento interativo para os usuários.
Como baixar e instalar o OCR
Ao abrir o respectivo documento, navegue até o botão "Reconhecer texto usando OCR" à direita.

Se você estiver usando este recurso pela primeira vez, você terá que baixá-lo como um plugin através do UPDF. Continue com o processo clicando no botão "Download" através da janela pop-up.

Você será automaticamente redirecionado para a próxima janela, onde será exibido o progresso da instalação do recurso. Deixe o recurso ser instalado com sucesso em seu dispositivo Windows antes de utilizá-lo.

Como fazer OCR de PDFs
Uma vez instalado, feche a janela e navegue até o mesmo botão para acessar a ferramenta OCR através do UPDF. À medida que se abrir, ele lhe fornecerá duas opções diferentes de Tipo de Documento, que incluem "PDF pesquisável" e "PDF somente imagem".
PDF pesquisável: Ao selecionar esta opção, converterá os documentos PDF digitalizados em documentos pesquisáveis e editáveis.
PDF apenas com imagem: Selecionando esta opção, ele converterá seus documentos pesquisáveis e editáveis em um documento PDF baseado em imagem que não é pesquisável nem editável.
Tipo de Documento: PDF Pesquisável
Se você optar por "PDF pesquisável", ele converterá seus documentos PDF digitalizados em documentos editáveis e pesquisáveis.
Layout:
Para configurar isto, você deve primeiro decidir sobre um "Layout" adequado com as opções disponíveis no menu suspenso. Você terá três opções diferentes na configuração do "Layout" do processo:
Somente texto e fotos: O texto e as imagens reconhecidas serão salvas em todo o documento PDF que será criado. O arquivo que é criado também é de tamanho menor, e sua estrutura visual pode diferir do arquivo original.
Texto sobre a imagem da página: Este modo é responsável por manter as imagens de fundo e ilustrações presentes em todo o documento de origem através do qual o OCR está sendo realizado. Estes arquivos são maiores; entretanto, eles podem diferir visualmente dos originais.
Texto sob a imagem da página: Para este modo, as imagens em PDF são mantidas; entretanto, o texto reconhecido é colocado sob uma camada invisível sob as imagens. Este tipo de arquivo é bastante idêntico ao arquivo PDF original.

Clique no ícone "Equipamento" para acessar mais Configurações de Layout que você pode definir para seu arquivo. Aqui você pode especificar se deseja "Manter imagens", enquanto determina a qualidade entre "Baixa", "Balanceada" ou "Alta" para salvar um arquivo com um tamanho menor do que o original com imagem e qualidade de imagem louváveis.

Linguagem do Documento, Resolução de Imagem e Gama de Páginas:
Defina um "Idioma do Documento" adequado com a opção de 38 idiomas diferentes no menu suspenso. Isto proporciona ao UPDF uma base melhor para reconhecer o texto com precisão em todo o documento.

Você também pode especificar as configurações de resolução adequadas para as imagens com a opção "Resolução de Imagem". Trabalhe sobre a "Faixa de páginas" e clique em "Executar OCR" para executar OCR em todo o arquivo com as configurações definidas.

2.2. Tipo de documento: somente imagem em PDF
Se você prosseguir com o "PDF somente imagem", ele converte seus documentos pesquisáveis e editáveis em um documento PDF baseado em imagem que não é pesquisável nem editável.
Configure a qualidade da imagem na seção "Manter Imagens", selecionando qualquer uma das opções disponíveis de "Baixa, Equilibrada ou Alta".

Decida se deseja comprimir suas imagens usando MRC.

Forneça uma "faixa de páginas" adequada e clique em "Executar OCR" para executar as ações no documento. Selecione a pasta e você receberá um documento PDF digitalizado imediatamente.
