OCR文字認識
UPDFのOCR機能を使用すると、スキャンしたPDFドキュメントのテキストを検索および編集可能なコンテンツに変換できます。この機能を使用すると、画像全体のデータも編集できるため、ユーザーにとってドキュメントがインタラクティブになります。
(公式サイトのアップル製CPU搭載Mac版はOCR機能を搭載しています。ただし、インテル製CPU搭載Mac版とアプリストア版はOCR機能をまだリリースしていません。)
OCRのダウンロードとインストール方法
ドキュメントを開き、右側のツールバーの「OCRを使用してテキストを認識」をクリックしてください。
この機能を初めて使用する場合は、UPDFプラグインとしてOCR機能をダウンロードする必要があります。ポップアップウィンドウの「インストール」ボタンをクリックし、インストールします。
次のウィンドウに自動的にリダイレクトされ、機能のインストールの進行状況が表示されます。機能を使用する前に、Windows デバイスに機能を正常にインストールしてください。
PDFにOCRをかける方法
インストール後、OCRツールを表示して下さい。メニューでは「検索可能なPDF」「画像のみPDF」の2つが表示されます。
- 検索可能なPDF: これを選択することで、PDFを編集可能で検索の行えるPDFに変換します。
- 画像のみPDF: これを選択することで、編集可能で検索の行えるPDFを画像のみのPDFに変換します。
書式種類:検索可能なPDF
「検索可能なPDF」を選択した場合、PDFをスキャンし、編集可能で検索可能なPDFに変換します。
配置
これを実行するにはまず、「配置」をせんたくしないといけません。以下に3つの配置があります。
- 文字と画像のみ: 認識された文字や画像は作成されるPDFに保存されます。大きさや見た目はオリジナルと異なる場合があります。
- ページ画像の上に文字: このモードでは、背景が画像のファイルなどに有効です。これで生成されるPDFはサイズが大きく、見た目はオリジナルと異なる場合があります。
- ページ画像の下に文字: このモードでは、PDFの画像はそのまま、認識された文字は画像の下に配置されます。見た目はオリジナルに近い仕上がりとなります。
ファイルに定義できるその他のレイアウト設定にアクセスするには、「歯車」アイコンをクリックしてください。 ここでは、「低」「バランス」「高」のいずれかを選択し、「写真を残す」かどうかを指定し、オリジナルよりも小さいファイルを立派な画像と画質で保存できます。
ドキュメント言語、画像クオリティ、ページ範囲:
適切な「ドキュメント言語」を38カ国語の中から選択して下さい。これを行うことでより正確なスキャンが可能です。
「画像の解像度」オプションを使用し、画像の適切な解像度設定を指定することもできます。「ページ範囲」を処理し、「OCR の実行」をクリックし、定義された設定を使用してファイルでOCRを実行します。
書式種類:画像のみのPDF
「画像のみのPDF」を使用する場合、検索可能かつ編集可能のPDFを画像ベースの検索不可、編集不可のPDFに変換されます。
- 「画像の画質」にて「低」「バランス」「高」の画質設定が行えます。
- MRCを使用し、画像を圧縮するか選択できます。
- 適切なページ範囲を指定し、「OCRを実行」をクリック数することでドキュメントにOCRかかかります。