PDF를 Word(DOCX)로 변환할 때 서식이 깨지는 이유와 깔끔하게 살리는 법
PDF를 Word로 바꿨더니 글자가 한 줄씩 끊기고, 표는 칸이 어긋나고, 한글은 네모(□)로 깨져 나온 경험이 한 번쯤 있을 것입니다. 변환 도구가 부실해서가 아니라, PDF와 Word(DOCX)가 애초에 전혀 다른 목적으로 설계된 포맷이기 때문입니다. 이 글에서는 왜 서식이 깨지는지 그 구조적 원인을 먼저 이해하고, 문서 유형별로 어떤 방법을 골라야 결과가 가장 깔끔한지, 그리고 변환 후 손이 덜 가게 만드는 실전 요령을 정리합니다.
왜 PDF는 Word로 '깔끔하게' 변환되지 않는가
핵심은 두 포맷의 철학이 정반대라는 데 있습니다. PDF는 '인쇄된 종이의 사진'에 가깝습니다. 어떤 글자를 어느 좌표(x, y)에, 어떤 글꼴로, 몇 포인트 크기로 찍을지를 절대 위치로 기록합니다. 화면이나 프린터가 달라도 똑같이 보이게 하는 것이 목적이라, '이 문장이 한 문단이다' '이 영역이 표다' 같은 논리적 구조 정보는 대부분 들어 있지 않습니다.
반면 DOCX는 '흐르는 텍스트(reflowable)' 문서입니다. 문단, 표 셀, 제목 스타일, 목록 같은 의미 단위로 내용을 담고, 창 크기나 글꼴이 바뀌면 줄바꿈이 자동으로 다시 계산됩니다. 그래서 PDF를 DOCX로 바꾼다는 것은 사실상 '좌표로 흩어진 글자 조각을 보고 원래의 문단·표·제목 구조를 거꾸로 추론해 복원'하는 작업입니다. 추론인 이상 완벽할 수 없고, 원본이 복잡할수록 오차가 커집니다.
줄바꿈이 문장 중간에서 끊기는 이유
PDF에는 '문단'이라는 개념이 약합니다. 변환기는 글자들의 세로 간격과 위치를 보고 '여기서 줄이 바뀌었으니 줄바꿈'이라고 판단하는데, 이때 같은 문단 안의 자연스러운 줄바꿈과 진짜 문단 끝을 구분하기 어렵습니다. 그 결과 한 문장이 여러 줄로 쪼개진 채 강제 줄바꿈(Enter)이 잔뜩 박힌 DOCX가 나옵니다. 단 위로 나뉜 학술 논문, 좁은 단으로 짠 사보·뉴스레터에서 특히 심합니다.
표가 무너지는 이유
PDF의 표는 대부분 '진짜 표'가 아니라 선(괘선) 그래픽 위에 글자를 좌표로 얹어 놓은 것입니다. 셀 경계가 데이터로 존재하지 않으니, 변환기는 선의 위치와 글자 정렬을 보고 행과 열을 추정해야 합니다. 병합된 셀, 칸 안의 줄바꿈, 선이 없는 표(여백으로만 구분된 표)는 추정이 빗나가기 쉬워 칸이 밀리거나 한 칸에 여러 데이터가 뭉칩니다.
가장 중요한 갈림길: 텍스트 PDF인가, 스캔 PDF인가
변환 전략을 정하는 첫 질문은 도구가 아니라 'PDF 안에 글자 데이터가 들어 있는가'입니다. 둘은 겉보기로 똑같아 보여도 처리 방식이 완전히 다릅니다.
- 텍스트 기반 PDF: 워드프로세서나 한글에서 '내보내기/인쇄'로 만든 PDF. 본문을 마우스로 드래그하면 글자가 블록으로 선택됩니다. 글자 데이터가 그대로 있어 변환 품질이 가장 좋습니다.
- 스캔(이미지) PDF: 종이 문서를 스캐너나 휴대폰 카메라로 찍은 것. 페이지 전체가 한 장의 사진이라, 드래그해도 글자가 선택되지 않습니다. 이 경우 변환기에 넣어도 그림 한 장만 박힌 빈 DOCX가 나옵니다.
스캔 PDF라면 일반 변환으로는 글자를 절대 살릴 수 없고, 먼저 OCR(광학 문자 인식)로 이미지 속 글자를 텍스트로 인식하는 단계가 반드시 필요합니다. OCR이 글자를 인식해 PDF에 텍스트 레이어를 입힌 뒤에야 DOCX 변환이 의미를 가집니다. 변환 결과가 통째로 그림으로 나왔다면, 도구 문제가 아니라 원본이 스캔본이라는 신호입니다.
상황별 변환 방법 비교
변환 수단은 크게 세 갈래입니다. 어느 하나가 절대적으로 우월하지 않고, 문서 성격과 작업 환경에 따라 맞는 선택이 다릅니다.
1) 워드·한글 등 오피스 프로그램에서 직접 열기
최신 Microsoft Word는 PDF 파일을 바로 열어 편집 가능한 문서로 변환하는 기능을 내장하고 있습니다. 설치형 프로그램이라 단의 구조나 제목 스타일을 비교적 잘 살리는 편이고, 변환과 동시에 곧바로 수정에 들어갈 수 있다는 장점이 큽니다. 다만 표가 많거나 디자인이 복잡한 PDF에서는 레이아웃이 흐트러질 수 있고, 한컴오피스 한글은 PDF를 여는 동작이 버전마다 차이가 있어 결과 편차가 있습니다. 단순한 보고서·계약서처럼 텍스트 위주 문서라면 가장 먼저 시도해 볼 만합니다.
2) 웹 기반 변환 도구
브라우저에 파일을 올리면 변환해 주는 서비스입니다. 설치가 필요 없고 운영체제를 가리지 않으며, 표 구조 복원이나 OCR 같은 기능을 함께 제공하는 곳이 많아 접근성이 좋습니다. 가장 큰 약점은 보안과 프라이버시입니다. 파일이 외부 서버로 업로드되므로, 개인정보·계약서·내부 문서처럼 민감한 자료라면 신중해야 합니다. 처리 후 파일을 자동 삭제하는지, 통신이 HTTPS로 암호화되는지를 확인하고, 정말 민감한 문서는 가급적 오프라인 방식을 택하는 편이 안전합니다.
3) 명령줄 도구로 자동화
한두 개가 아니라 수십, 수백 개 PDF를 일괄 변환해야 한다면 명령줄 도구가 효율적입니다. 대표적으로 LibreOffice의 헤드리스 모드를 쓰면 GUI 없이 폴더 단위로 변환을 돌릴 수 있어, 정기 보고서 배치 처리나 서버 자동화에 잘 맞습니다.
# LibreOffice 헤드리스 모드로 폴더의 모든 PDF를 DOCX로 일괄 변환
for f in *.pdf; do
libreoffice --headless --convert-to docx --outdir ./out "$f"
done다만 명령줄 도구는 텍스트 PDF에는 강하지만 복잡한 표나 스캔본 OCR에는 한계가 있어, 결과를 반드시 표본 검수해야 합니다. 즉 '대량·반복'이면 명령줄, '품질이 중요한 한두 건'이면 오피스나 전용 도구가 합리적인 분담입니다.
한국 사용자가 자주 겪는 함정: 한글 폰트와 자모 분리
한국어 문서 변환에서 가장 빈번한 문제는 폰트입니다. PDF에 글꼴이 포함(임베딩)되지 않은 채 만들어졌고 변환 환경에 그 글꼴이 없으면, 글자가 네모(□)나 깨진 기호로 표시됩니다. 함초롬바탕·함초롬돋움처럼 한컴 전용 글꼴로 만든 문서를 다른 환경에서 변환할 때 특히 자주 나타납니다. 이럴 때는 변환 후 DOCX에서 글꼴을 맑은 고딕이나 나눔고딕처럼 시스템에 확실히 설치된 글꼴로 한 번에 바꿔 주면 대부분 해결됩니다.
또 하나, 한글이 'ㅎ ㅏ ㄴ' 처럼 자음·모음으로 분리되어 보이는 현상이 있습니다. 이는 유니코드 정규화(NFD/NFC)가 어긋나서 생기는데, macOS에서 만든 파일명이나 일부 OCR 결과에서 나타납니다. 본문이 자모 단위로 깨졌다면 OCR이나 변환 엔진의 한국어 처리 품질 문제일 가능성이 높으니, 한국어를 제대로 지원하는 엔진으로 바꿔 다시 시도하는 편이 빠릅니다.
표가 많은 문서는 DOCX가 답이 아닐 수도 있다
PDF 안의 내용이 거의 표와 숫자라면, 굳이 Word로 변환해 표를 복원하느라 고생하기보다 Excel(XLSX)로 바로 변환하는 편이 결과가 깔끔한 경우가 많습니다. 변환기가 행과 열을 셀 단위로 매핑해 주므로, 숫자 데이터를 그대로 계산에 활용할 수 있습니다. 반대로 발표 자료의 장표를 살리는 것이 목적이라면 PowerPoint(PPTX) 변환이 더 적합합니다. '무조건 Word'가 아니라, 원본이 본질적으로 어떤 문서인지에 맞춰 목적지 포맷을 고르는 것이 서식 손실을 줄이는 가장 근본적인 방법입니다.
All-of-PDF 같은 온라인 도구도 PDF를 DOCX뿐 아니라 XLSX, PPTX로 나눠 변환하고 OCR을 따로 제공하는데, 이는 마케팅이 아니라 위와 같은 포맷별 특성 때문입니다. 변환 전에 '이 문서는 글이 주인가, 표가 주인가, 장표가 주인가'를 먼저 판단하면 도구가 무엇이든 결과가 좋아집니다.
변환 품질을 끌어올리는 실전 체크리스트
같은 도구라도 다음을 지키면 손볼 분량이 눈에 띄게 줄어듭니다.
- 변환 전 텍스트 PDF인지 스캔 PDF인지 드래그로 확인하고, 스캔본이면 OCR을 먼저 돌린다.
- 전체를 한 번에 변환하기 전에 대표 페이지 1~2장만 시험 변환해 품질을 가늠한다.
- 표가 핵심이면 DOCX 대신 XLSX 변환을 검토하고, 장표라면 PPTX를 고려한다.
- 결과 DOCX에서 자동 줄바꿈을 정리하고, 깨진 글꼴을 시스템 기본 글꼴로 일괄 변경한다.
- 민감한 문서는 외부 업로드 대신 오프라인 도구를 쓰고, 사용한 웹 서비스의 파일 삭제 정책을 확인한다.
- 암호가 걸린 PDF는 변환이 막히므로 먼저 권한을 해제한 뒤 진행한다.
마지막으로 기대치를 현실적으로 잡는 것이 중요합니다. 디자인이 정교한 잡지·카탈로그형 PDF를 100% 그대로 편집 가능한 Word로 되살리는 일은 어떤 도구로도 어렵습니다. 이런 문서는 '구조를 완벽히 복원'하기보다 '텍스트를 빠르게 추출해 새 문서로 재구성'하는 쪽이 오히려 시간을 아끼는 길입니다. 포맷의 한계를 이해하고 문서 유형에 맞는 방법을 고르는 것, 그것이 서식 손실을 줄이는 가장 확실한 전략입니다.