스캔한 PDF를 검색 가능하게 만들기 — OCR 실전 가이드
OCR스캔 PDF검색 가능 PDF
스캔으로 만든 PDF는 화면에 글자가 보이지만 컴퓨터에게는 그저 이미지일 뿐입니다. 검색도 안 되고, 복사도 안 되고, 번역기에도 못 넣습니다. OCR(광학 문자 인식)로 텍스트 레이어를 한 겹 입히면 일반 PDF처럼 사용할 수 있게 됩니다.
OCR이 왜 필요한가
- 오래된 종이 문서를 디지털화한 경우
- 팩스로 수신해 이미지로 변환된 계약서·청구서
- 사진으로 찍은 문서를 PDF로 묶은 경우
- 보안상 의도적으로 이미지화된 문서
변환 절차
- 도구 페이지에서 'PDF → 텍스트' 도구를 선택합니다.
- OCR이 필요한 PDF를 업로드합니다.
- 변환 후 추출된 텍스트를 확인합니다.
- 검색 가능한 PDF로 만들고 싶다면 결과를 새 PDF로 다시 변환해 원본과 결합하면 됩니다.
정확도를 높이는 팁
- 원본 해상도 300dpi 이상 — 낮은 해상도일수록 글자 인식이 어렵습니다.
- 흑백 또는 그레이스케일로 처리된 스캔이 인식률이 높습니다. 컬러 노이즈는 OCR에 방해가 됩니다.
- 기울어진 페이지는 사전에 똑바로 정렬해주세요. 기울기가 1~2도만 되어도 인식률이 떨어집니다.
- 한국어와 영어가 섞인 문서는 두 언어 모두 인식하는 엔진을 사용하면 결과가 좋아집니다.
- 표·차트가 포함된 경우, 표 영역과 본문을 분리해 처리하면 더 깔끔합니다.
한국어 문서에서 자주 보이는 함정
- 흘림체 폰트 — 정자체로 다시 작성된 원본이 있다면 그쪽이 인식률이 훨씬 좋습니다.
- 한자 혼용 문서 — 일부 OCR 엔진은 한자를 한국어로 잘못 인식하기도 합니다. 결과를 반드시 검수하세요.
- 세로쓰기 — 가로쓰기로 회전한 후 OCR을 돌리면 인식률이 올라갑니다.
OCR 결과는 100% 완벽하지 않습니다. 법률·의료처럼 정확도가 결정적인 문서는 반드시 사람의 검수가 필요합니다.