PDFのOCR
UPDFの提供するOCR機能ではスキャンで取り込んだPDFに文字データを付加することができ、PDF内検索に対応させることができます。
1. OCRのダウンロード、インストール方法
ドキュメントを開き、「OCRで文字を認識」をクリックして下さい。

この機能を初めて利用する場合、UPDFにOCR機能をダウンロードする必要があります。「ダウンロード」をクリックすることでダウンロードできます。

次に、ダウンロードの進捗が表示されます。インストールが完了するまで待って下さい。

2. PDFにOCRをかける方法
インストール後、OCRツールを表示して下さい。メニューでは「検索可能なPDF」「画像のみPDF」の2つが表示されます。
- 検索可能なPDF: これを選択することで、PDFを編集可能で検索の行えるPDFに変換します。
- 画像のみPDF: これを選択することで、編集可能で検索の行えるPDFを画像のみのPDFに変換します。
2.1 書式種類:検索可能なPDF
「検索可能なPDF」を選択した場合、PDFをスキャンし、編集可能で検索可能なPDFに変換します。
配置:
これを実行するにはまず、「配置」をせんたくしないといけません。以下に3つの配置があります。
- 文字と画像のみ: 認識された文字や画像は作成されるPDFに保存されます。大きさや見た目はオリジナルと異なる場合があります。
- ページ画像の上に文字: このモードでは、背景が画像のファイルなどに有効です。これで生成されるPDFはサイズが大きく、見た目はオリジナルと異なる場合があります。
- ページ画像の下に文字: このモードでは、PDFの画像はそのまま、認識された文字は画像の下に配置されます。見た目はオリジナルに近い仕上がりとなります。

歯車アイコンをクリックすることでより詳細な配置設定を行えます。ここでは、画像の品質を「低」「バランス」「高」のうちからせんたくすることができます。

ドキュメント言語、画像クオリティ、ページ範囲:
適切な「ドキュメント言語」を38カ国語の中から選択して下さい。これを行うことでより正確なスキャンが可能です。

また、画像のクオリティを選択することも可能です。OCRをかけるページ範囲を選択し、「OCRを実行」をクリックして下さい。

2.2. 書式種類:画像のみのPDF
「画像のみのPDF」を使用する場合、検索可能かつ編集可能のPDFを画像ベースの検索不可、編集不可のPDFに変換されます。
- 「画像の画質」にて「低」「バランス」「高」の画質設定が行えます。

- MRCを使用し、画像を圧縮するか選択できます。

- 適切なページ範囲を指定し、「OCRを実行」をクリック数することでドキュメントにOCRかかかります。
