UPDF OCR-PDFs
Mit der OCR-Funktion von UPDF kannst du den gescannten Text eines PDF-Dokuments in durchsuchbare und bearbeitbare Inhalte umwandeln. Die Daten in den Bildern können nach der Verwendung dieser Funktion auch bearbeitet werden, was das Dokument für die Nutzer/innen interaktiv macht.
1. Wie du OCR herunterlädst und installierst
Wenn du das entsprechende Dokument öffnest, navigiere zum Button "Text mit OCR erkennen" auf der rechten Seite.
Wenn du diese Funktion zum ersten Mal verwendest, musst du sie als Plugin über UPDF herunterladen. Fahre mit dem Prozess fort, indem du auf den Button "Herunterladen" im Popup-Fenster klickst.
Du wirst automatisch zum nächsten Fenster weitergeleitet, in dem der Fortschritt der Installation der Funktion angezeigt wird. Lass die Funktion erfolgreich auf deinem Windows-Gerät installieren, bevor du sie benutzt.
2. Wie du PDFs mit OCR erfasst
Nach der Installation schließt du das Fenster und navigierst zum gleichen Button, um das OCR-Tool über UPDF aufzurufen. Wenn es sich öffnet, werden dir zwei verschiedene Optionen für den Dokumententyp angeboten: "Durchsuchbares PDF" und "Nur-Bild-PDF".
- Durchsuchbare PDF: Wenn du diese Option auswählst, werden gescannte PDF-Dokumente in durchsuchbare und bearbeitbare Dokumente umgewandelt.
- Nur-Bild-PDF: Wenn du diese Option auswählst, werden deine durchsuchbaren und bearbeitbaren Dokumente in ein bildbasiertes PDF-Dokument umgewandelt, das weder durchsuchbar noch bearbeitbar ist.
2.1 Dokumenttyp: Durchsuchbares PDF
Wenn du dich für "Durchsuchbares PDF" entscheidest, werden deine gescannten PDF-Dokumente in bearbeitbare und durchsuchbare Dokumente umgewandelt.
Layout:
Um das Layout einzurichten, musst du dich zunächst für ein geeignetes "Layout" mit den im Dropdown-Menü verfügbaren Optionen entscheiden. Du erhältst drei verschiedene Optionen, um das Layout des Prozesses einzurichten:
- Nur Text und Bilder: Der erkannte Text und die Bilder werden in dem erstellten PDF-Dokument gespeichert. Die erstellte Datei ist außerdem kleiner und ihre visuelle Struktur kann sich von der Originaldatei unterscheiden.
- Text über dem Seitenbild: In diesem Modus werden die Hintergrundbilder und Illustrationen des Quelldokuments, über das die OCR durchgeführt wird, beibehalten. Diese Dateien sind größer, können sich aber optisch von den Originaldateien unterscheiden.
- Text unter dem Seitenbild: Bei diesem Modus werden die PDF-Bilder beibehalten, der erkannte Text wird jedoch auf einer unsichtbaren Ebene unter den Bildern platziert. Dieser Dateityp ist völlig identisch mit der ursprünglichen PDF-Datei.
Klicke auf das "Zahnrad"-Icon, um auf weitere Layout-Einstellungen zuzugreifen, die du für deine Datei festlegen kannst. Hier kannst du angeben, ob du "Bilder beibehalten" möchtest, während du die Qualität zwischen "Niedrig", "Ausgeglichen" und "Hoch" bestimmst, um eine Datei zu speichern, die kleiner als das Original ist, aber dennoch eine gute Bildqualität aufweist.
Dokumentsprache, Bildauflösung und Seitenbereich:
Definiere eine eigene "Dokumentsprache" und wähle eine der im Dropdown-Menü angebotenen 38 verschiedenen Sprachen aus. Dies bietet UPDF eine bessere Grundlage für die genaue Erkennung des Dokumenttexts.
Mit der Option "Bildauflösung" kannst du eine geeignete Auflösung für die Bilder festlegen. Gehe über den "Seitenbereich" und klicke auf "OCR durchführen", um die OCR in der Datei mit den festgelegten Einstellungen auszuführen.
2.2 Dokumenttyp: Reines Bild-PDF
Wenn du mit "Nur-Bild-PDF" fortfährst, werden deine durchsuchbaren und bearbeitbaren Dokumente in ein bildbasiertes PDF-Dokument umgewandelt, das weder durchsuchbar noch bearbeitbar ist.
- Stelle die Bildqualität im Abschnitt "Bilder behalten" ein, indem du eine der verfügbaren Optionen, "Niedrig, Ausgeglichen oder Hoch", auswählst.
- Entscheide, ob du deine Bilder mit MRC komprimieren willst.
- Gib einen geeigneten "Seitenbereich" an und klicke auf "OCR durchführen", um die Aktionen für das Dokument auszuführen. Wähle den Ordner aus und du erhältst sofort ein gescanntes PDF-Dokument.