PDF에서 원하는 페이지만 분리·추출하기: 범위·홀짝·대용량 분할 완벽 가이드

PDF페이지분할문서편집페이지추출

계약서 30페이지 중 서명이 들어간 2장만 보내야 할 때, 스캔본 한 묶음에서 짝수 페이지만 따로 떼어내야 할 때, 혹은 200MB짜리 PDF를 이메일에 첨부하려고 여러 개로 쪼개야 할 때. PDF에서 '원하는 페이지만' 다루는 작업은 생각보다 자주 마주치지만, 막상 하려고 하면 도구마다 용어도 다르고 결과물도 제각각이라 헷갈리기 쉽습니다. 이 글에서는 페이지 추출과 분할이 내부적으로 어떻게 동작하는지부터, 상황별로 어떤 방법을 골라야 하는지, 그리고 한글 사용자가 특히 자주 겪는 함정과 해결책까지 한 번에 정리합니다.

먼저 용어부터: 분할, 추출, 페이지 삭제는 다르다

세 가지를 구분하지 않으면 엉뚱한 도구를 쓰게 됩니다. '추출(extract)'은 원본은 그대로 두고 특정 페이지만 골라 새 PDF로 복사하는 작업입니다. '분할(split)'은 하나의 큰 PDF를 여러 개의 파일로 나누는 작업으로, 보통 '몇 페이지마다 자르기'나 '특정 페이지에서 끊기' 형태로 동작합니다. '페이지 삭제'는 필요 없는 페이지를 빼고 나머지를 한 파일로 유지하는 것이죠. 예를 들어 '5~8페이지만 필요하다'면 추출이고, '50페이지 문서를 10페이지씩 5개로 나눠라'면 분할입니다. 목적이 분명해야 도구의 옵션 이름(extract, split, page range, every N pages)에서 헤매지 않습니다.

PDF 페이지 분리는 내부에서 어떻게 동작하나

PDF는 텍스트가 흐르는 워드 문서와 달리, 각 페이지가 독립적인 객체로 저장되고 그 페이지들을 가리키는 '페이지 트리(page tree)'라는 목차 구조를 가집니다. 따라서 페이지를 추출한다는 것은, 원하는 페이지 객체와 거기에 딸린 리소스(폰트, 이미지, 글꼴 정보 등)만 복사해 새로운 페이지 트리를 구성하는 작업입니다. 페이지 안의 내용을 다시 그리거나 변환하지 않기 때문에, 제대로 된 도구라면 추출해도 화질 저하나 텍스트 손상이 일어나지 않습니다.

이 점이 중요합니다. PDF를 이미지로 바꿨다가 다시 PDF로 만드는 방식(예: 인쇄→PDF 저장으로 페이지를 줄이는 편법)은 텍스트를 그림으로 굳혀버려 복사·검색이 안 되고 용량도 커집니다. 반면 페이지 트리만 재구성하는 정식 추출은 원본의 텍스트 레이어, 책갈피, 하이퍼링크 같은 구조를 최대한 보존합니다. 결과물에서 텍스트가 선택되는지 한 번 확인해 보면 어떤 방식으로 처리됐는지 금방 알 수 있습니다.

상황별 방법 고르기: 웹 도구 · 오피스 프로그램 · 명령줄

같은 '페이지 추출'이라도 한두 번 쓰는 사람과, 매달 수백 개 파일을 처리하는 사람의 최적 도구는 다릅니다. 크게 세 갈래로 나눠 보겠습니다.

가볍게 한두 번이면 웹 기반 도구

설치 없이 브라우저에서 파일을 올리고 페이지 범위를 지정하면 바로 새 PDF를 내려받는 방식입니다. 페이지 미리보기를 보면서 마우스로 고를 수 있어 직관적이고, 운영체제를 가리지 않습니다. 다만 민감한 문서라면 업로드 방식인지 브라우저 안에서만 처리되는지 확인하는 습관이 필요합니다. 처리 후 서버에서 파일을 언제 삭제하는지 명시돼 있는 서비스를 고르는 편이 안전합니다.

이미 설치돼 있다면 PDF 뷰어·오피스 프로그램

유료 PDF 편집기(Acrobat 등)는 페이지 썸네일을 드래그해 추출·재배열·삭제를 한 화면에서 처리합니다. 무료 범위에서는 운영체제 기본 기능도 의외로 쓸 만합니다. 맥의 미리보기(Preview)는 썸네일에서 원하는 페이지만 선택해 새 문서로 드래그하거나, 'PDF로 인쇄'로 페이지 범위를 지정할 수 있습니다. 윈도우에서는 'Microsoft Print to PDF'로 인쇄 대화상자에서 페이지 범위만 지정해 새 PDF를 만들 수 있는데, 이 방식은 앞서 말한 대로 텍스트 레이어가 보존되지 않을 수 있으니 검색 가능한 결과물이 필요하면 주의해야 합니다.

반복·대량 작업이면 명령줄 도구

수십, 수백 개 파일을 같은 규칙으로 잘라야 한다면 사람이 클릭하는 건 비효율적입니다. qpdf나 pdftk 같은 오픈소스 명령줄 도구는 페이지 범위를 인자로 받아 자동화 스크립트에 넣기 좋고, 화질 손실 없이 페이지 트리만 재구성합니다. 아래는 qpdf로 한 파일에서 5~8페이지만 추출하고, 동시에 홀수 페이지만 따로 뽑는 예시입니다.

# 5~8페이지만 새 파일로 추출
qpdf input.pdf --pages input.pdf 5-8 -- out_5-8.pdf

# 홀수 페이지만 추출 (1,3,5,...)
qpdf input.pdf --pages input.pdf 1-z:odd -- out_odd.pdf

# 큰 문서를 10페이지 단위로 분할
qpdf --split-pages=10 big.pdf chunk.pdf

여기서 1-z는 '첫 페이지부터 끝(z)까지'를 뜻하고, 뒤에 odd/even을 붙여 홀짝을 거릅니다. 범위 표기는 5-8처럼 연속, 1,3,5처럼 띄엄띄엄, 8-5처럼 역순(페이지 뒤집기)도 됩니다. 이런 규칙성 덕분에 폴더 전체를 반복문으로 돌리는 일이 쉬워집니다.

대용량 PDF를 쪼갤 때 신경 쓸 점

용량이 큰 PDF는 보통 두 가지 이유로 큽니다. 하나는 페이지 수가 많은 경우, 다른 하나는 고해상도 스캔 이미지가 들어간 경우입니다. 페이지 수가 문제라면 단순 분할로 해결되지만, 이미지가 무거운 경우엔 10페이지씩 잘라도 각 조각이 여전히 클 수 있습니다. 이때는 분할과 별개로 이미지 다운샘플링이나 압축을 함께 고려해야 이메일 첨부 한도(보통 20~25MB 안팎)에 맞출 수 있습니다.

또 하나, 분할 기준을 '용량'이 아니라 '페이지 수'로 잡는다는 점을 기억하세요. 대부분의 도구는 '몇 페이지마다 자르기'는 지원해도 '몇 MB마다 자르기'는 직접 지원하지 않습니다. 페이지마다 무게가 다르기 때문에, 첨부 한도를 정확히 맞추려면 분할 후 각 조각 용량을 확인하고 필요하면 페이지 수를 조정하는 과정을 거치는 게 현실적입니다.

한국 사용자가 자주 겪는 함정

한글 폰트가 깨지거나 빠진다

PDF는 폰트를 문서 안에 '임베드(embed)'할 수도, 시스템 폰트를 참조만 할 수도 있습니다. 페이지를 정상적으로 추출하면 해당 페이지가 쓰던 한글 폰트도 함께 복사되지만, 원본이 애초에 폰트를 일부만 서브셋으로 넣어둔 경우 드물게 글자가 네모(두부)로 보이는 일이 생깁니다. 추출 결과에서 한글이 깨졌다면, 원본을 다시 열어 폰트가 임베드돼 있는지(문서 속성의 글꼴 항목) 확인하고, 임베드가 안 돼 있다면 폰트를 포함해 다시 저장한 뒤 추출하는 것이 근본 해결책입니다.

스캔 문서는 페이지를 잘라도 텍스트가 없다

관공서 서식이나 옛 자료를 스캔한 PDF는 사실상 사진 묶음이라, 페이지를 추출해도 그 안에서 글자를 선택하거나 검색할 수 없습니다. 추출은 정상적으로 되지만 '텍스트가 없는 페이지'가 나오는 것이죠. 검색 가능한 문서가 필요하다면 추출과 별개로 OCR(광학 문자 인식) 처리를 거쳐 텍스트 레이어를 입혀야 합니다. 순서는 보통 OCR을 먼저 하고 그다음 원하는 페이지를 추출하는 편이 깔끔합니다.

암호·권한이 걸린 PDF는 추출이 막힌다

열기 암호가 걸린 PDF는 비밀번호를 입력해야 처리가 시작되고, '편집·페이지 추출 금지' 권한이 설정된 문서는 도구가 작업을 거부할 수 있습니다. 본인이 정당하게 소유한 문서라면 암호를 풀고 진행하면 되지만, 권한 제한은 그 문서를 만든 측의 의도이므로 무단 해제는 피해야 합니다. 추출이 자꾸 실패한다면 먼저 문서의 보안 설정부터 확인하는 게 순서입니다.

민감한 계약서나 개인정보가 담긴 문서를 추출하기 전에, 추출 후 남는 조각 파일에도 같은 민감 정보가 그대로 들어 있다는 점을 잊지 마세요. 일부 페이지만 공유할 때는 추출 결과에 불필요한 페이지가 섞여 있지 않은지, 그리고 필요하면 이름·계좌 등은 마스킹 처리까지 했는지 한 번 더 확인하는 습관이 사고를 막습니다.

추출이 잘 안 될 때 점검 체크리스트

  • 결과물에서 텍스트가 선택되는가 — 안 되면 이미지로 굳어진 것이니 OCR 또는 다른 추출 방식 검토
  • 한글이 네모로 보이는가 — 원본의 폰트 임베드 여부 확인 후 재저장
  • 추출이 거부되는가 — 열기 암호·편집 권한 등 보안 설정 확인
  • 조각 파일이 여전히 큰가 — 페이지 수 분할만으로 부족하면 이미지 압축 병행
  • 페이지 순서가 뒤바뀌었는가 — 범위 표기(역순 인식)와 페이지 번호가 1부터인지 0부터인지 확인

정리: 목적에 맞는 가장 단순한 방법을 고르자

페이지 몇 장을 가끔 떼어내는 정도라면 미리보기 가능한 웹 도구나 운영체제 기본 기능으로 충분합니다. 매번 같은 규칙으로 많은 파일을 처리한다면 qpdf 같은 명령줄 도구로 자동화하는 편이 시간을 크게 아껴줍니다. 어떤 방법을 쓰든 핵심은 두 가지입니다. 첫째, 텍스트 레이어를 죽이지 않는 정식 추출 방식을 쓸 것. 둘째, 한글 폰트·보안·민감 정보 세 가지를 결과물에서 반드시 확인할 것. 이 글에서 다룬 동작 원리만 이해하고 있으면, 처음 보는 도구를 만나도 어떤 옵션을 눌러야 할지 헤매지 않을 수 있습니다. 병합·이미지 변환·OCR·마스킹처럼 페이지 추출과 함께 자주 쓰이는 작업들도 같은 원리 위에서 동작하니, 한 번 개념을 잡아두면 두루 응용됩니다.