PDF 파일 OCR
UPDF의 OCR 기능을 사용하면 PDF 문서의 스캔한 텍스트를 검색 및 편집 가능한 콘텐츠로 변환할 수 있습니다. 사용자가 문서에 사호작용을 할 수 있게 만들고, 이 기능을 사용한 후에도 이미지 전체의 데이터를 편집할 수 있습니다.
1. OCR 다운로드 및 설치 방법
해당 문서를 열면 오른쪽에 있는 “OCR을 사용하여 텍스트 인식” 버튼으로 이동합니다.

이 기능을 처음 사용하는 경우 UPDF에서 플러그인으로 다운로드해야 합니다. 팝업 창에서 “다운로드”버튼을 클릭하여 작업을 계속하세요.

기능 설치 진행 상황이 표시되는 다음 창으로 자동 이동됩니다. 기능을 사용하기 전에 Windows 장치에 설치하세요.

2. PDF를 OCR로 변환하는 방법
설치가 완료되면 창을 닫고 동일한 버튼으로 이동하여 UPDF에서 OCR 도구에 액세스할 수 있습니다. 창이 열리면 “검색 가능한 PDF”와 “이미지 전용 PDF”를 포함하는 두 가지 문서 유형 옵션이 제공됩니다.
- 검색 가능한 PDF: 이 옵션을 선택하면 스캔한 PDF 문서가 검색 및 편집 가능한 문서로 변환됩니다.
- 이미지 전용 PDF: 이 옵션을 선택하면 검색 및 편집 가능한 문서가 검색이나 편집이 불가능한 이미지 기반 PDF 문서로 변환됩니다.
2.1 문서 유형: 검색 가능한 PDF
“검색 가능한 PDF”로 이동하면 스캔한 PDF 문서가 편집 및 검색 가능한 문서로 변환됩니다.
레이아웃:
이를 설정하려면 먼저 드롭-다운 메뉴에서 사용할 수 있는 옵션을 사용하여 적절한 “레이아웃”을 결정해야 합니다. 작업 레이아웃을 설정할 때 다음과 같은 세 가지 옵션이 제공됩니다.
- 텍스트 및 그림만: 인식된 텍스트와 그림은 생성될 PDF 문서 전체에 저장됩니다. 생성되는 파일의 크기는 작을 수 있으며 시각적 구조가 원본 파일과 다를 수 있습니다.
- 페이지 이미지 위의 텍스트: 이 모드는 OCR이 수행되는 소스 문서 전체에 있는 배경 이미지와 그림을 보존하는 역할을 합니다. 이러한 파일은 크기가 더 크지고 원본 파일과 시각적으로 다를 수 있습니다.
- 페이지 이미지 아래 텍스트: 이 모드에서는 PDF 이미지가 유지되지만 인식된 텍스트는 이미지 아래의 보이지 않는 레이어로 배치됩니다. 이 파일 형식은 원본 PDF 파일과 완전히 동일합니다.

“톱니바퀴” 아이콘을 클릭하면 파일에 정의할 수 있는 더 많은 레이아웃 설정에 액세스할 수 있습니다. 여기에서 품질을 “낮음”, “균형 조정” 또는 “높음” 중에서 결정하면서 원본보다 작은 크기의 파일을 적절한 화질과 화질로 저장할 수 있도록 “사진 유지”를 지정할 수 있습니다.

문서 언어, 이미지 해상도 및 페이지 범위:
드롭-다운 메뉴에서 38개 언어 옵션을 사용하여 적절한 “문서 언어”를 정의합니다. 따라서 UPDF는 문서 전체에서 텍스트를 정확하게 인식할 수 있는 더 나은 환경을 제공합니다.

“이미지 해상도” 옵션을 사용하여 이미지에 적절한 해상도 설정을 지정할 수 있습니다. “페이지 범위”에서 작업하고 “OCR 실행”을 클릭하여 정의된 설정으로 파일 전체에서 OCR을 실행합니다.

2.2. 문서 유형: 이미지 전용 PDF
“이미지 전용 PDF”를 진행하면 검색 및 편집 가능한 문서가 검색이나 편집이 불가능한 이미지 기반 PDF 문서로 변환됩니다.
- “사진 유지” 섹션에서 사용 가능한 “낮음, 균형 조정 또는 높음” 옵션 중 하나를 선택하여 화질을 설정합니다.

- MRC를 사용하여 이미지를 압축여부를 결정하세요.

- 적절한 “페이지 범위”를 입력하고 “OCR 실행”을 클릭하여 문서에서 작업을 수행합니다. 폴더를 선택하면 스캔한 PDF 문서가 즉시 저장됩니다.
