OCR 光學字符識別 PDF 文件
UPDF 的 OCR 功能可讓您將 PDF 文件的掃描文字轉換為可搜尋和可編輯的內容,使用此功能後還可以編輯圖像中的數據。點擊下面的按鈕並按照下面的文字指南或影片指南操作 OCR 識別。
Windows • macOS • iOS • Android 100% 安全性
1. 如何下載並安裝OCR
開啟對應文件時,導覽至右側的「使用 OCR 識別文字」按鈕。
如果您是第一次使用此功能,則必須將其作為 UPDF 外掛程式下載。點擊彈出視窗中的“下載”按鈕繼續該過程。
您將自動重定向到下一個窗口,其中將顯示該功能的安裝進度。在使用該功能之前,請先在您的 Windows 裝置上成功安裝功能。
2. 如何OCR 識別 PDF
安裝後,關閉視窗並導覽至用於跨 UPDF 存取 OCR 工具的相同按鈕。當我們打開PDF文檔時,它將為您提供兩種不同的文件類型選項,其中包括“可搜尋 PDF”和“僅圖像 PDF”。
- 可搜尋的 PDF:透過選擇此選項,它將將掃描的 PDF 文件轉換為可搜尋和可編輯的文件。
- 僅圖像 PDF:透過選擇此選項,它將將可搜尋和可編輯的文檔轉換為既不可搜尋也不可編輯的基於圖像的 PDF 文件。
2.1 文件類型:可搜尋 PDF
如果您選擇“可搜尋 PDF”,它會將掃描的 PDF 文件轉換為可編輯和可搜尋的文件。
佈局:
要進行此設置,您必須先使用下拉式選單中的可用選項決定正確的「佈局」。在設定流程佈局時,您將獲得三個不同的選項:
- 僅文字和圖片:識別的文字和圖片將保存在將建立的 PDF 文件中。創建的文件的大小也較小,其視覺結構可能與原始文件不同。
- 頁面圖像上的文字: 此模式負責保留正在執行 OCR 的來源文件中存在的背景圖像和插圖。這些文件較大;但是,它們在視覺上可能與原始版本有所不同。
- 頁面影像下方的文字: 此模式下,保留 PDF 影像;然而,識別的文本被放置在圖像下方的不可見層下。此文件類型與原始 PDF 文件完全相同。
點擊“齒輪”圖示以存取您可以為文件定義的更多佈局設定。您可以在此處指定是否要“保留圖片”,同時確定“低”、“平衡”或“高”之間的質量,以保存比原始文件更小的文件,並具有值得稱讚的圖像和圖片質量。
文件語言、影像解析度和頁面範圍:
使用下拉式選單中的 38 種不同語言選項定義適當的「文件語言」。這為 UPDF 提供了更好的基礎來準確識別整個文件中的文字。
您也可以使用“影像解析度”選項為影像指定正確的解析度設定。處理“頁面範圍”並點擊“執行 OCR”以使用定義的設定對檔案執行 OCR。
2.2.文件類型:純圖像 PDF
如果您繼續使用“僅限圖像 PDF”,它會將您的可搜尋和可編輯文件轉換為既不可搜尋也不可編輯的基於圖像的 PDF 文件。
- 透過選擇「低、平衡或高」任何可用選項,在「保留圖片」部分下設定影像品質。
- 決定是否要使用 MRC 壓縮影像。
- 提供正確的“頁面範圍”,然後按一下“執行 OCR”以對文件執行操作。選擇資料夾,您將立即獲得掃描的 PDF 文件。
Windows • macOS • iOS • Android 100% 安全性