-선택 영역만 OCR 적용해 처리 속도 최대 50% 개선
-AI 답변 근거를 문서에서 바로 확인하는 ‘AI 출처 확인’ 기능 도입
MuPDF WebViewer_AI출처확인 (자료 제공: 이파피루스)
지능형 문서 자동화 솔루션 기업 이파피루스가 문서 데이터 처리 기술 고도화에 나섰다. 기존 OCR 방식의 한계를 개선하는 동시에, AI 기반 문서 활용 환경에서 요구되는 신뢰성 문제까지 해결하려는 시도다. 이파피루스는 문서 데이터 추출 라이브러리 ‘PyMuPDF Pro’의 업데이트를 통해 ‘하이브리드 OCR(Hybrid OCR)’ 기술과 AI 기반 출처 검증 기능을 새롭게 적용했다고 밝혔다.
필요한 부분만 읽는 OCR… 문서 처리와 AI 신뢰성까지 확장
기존 OCR은 텍스트 추출이 가능한 디지털 문서까지 이미지로 변환해 처리하는 방식이 일반적이었다. 이 과정에서 처리 속도가 느려지고, 문서 레이아웃이 왜곡되는 문제가 발생해왔다.
이파피루스가 적용한 하이브리드 OCR은 이러한 구조를 개선했다. 페이지 내에서 이미지나 손상된 텍스트 등 인식이 어려운 영역만 선별해 OCR을 적용하고, 나머지 디지털 텍스트는 그대로 유지하는 방식이다.
회사 측에 따르면 해당 기술을 통해 기존 대비 처리 속도가 약 50% 개선됐으며, 원본 문서의 폰트 스타일과 표 구조를 유지하면서도 데이터 정확도를 확보할 수 있다. 또한 비교적 낮은 사양의 환경에서도 대용량 문서를 안정적으로 처리할 수 있어 서버 자원 효율 측면에서도 강점이 있다는 설명이다.
이번 업데이트에는 문서 활용 기능도 함께 강화됐다. ‘MuPDF Web Viewer’를 통해 문서 검색 및 데이터 추출 기능을 고도화하고, AI 기반 의미 검색과 구조화된 정보 추출 기능을 추가했다.
특히 ‘AI 출처 확인(AI Citation)’ 기능이 눈에 띈다. AI가 생성한 답변이 문서의 어떤 부분을 기반으로 도출됐는지를 시각적으로 보여주는 방식이다. 사용자는 답변 내 인용 구문을 클릭하면 해당 문서 위치로 이동해 근거 문장을 바로 확인할 수 있다.
이는 생성형 AI 활용 과정에서 지적돼 온 ‘근거 불명확성’ 문제를 보완하기 위한 접근으로, 문서 기반 AI 활용 환경에서 신뢰성을 높이는 요소로 작용할 것으로 보인다.
이파피루스는 이번 업데이트를 통해 문서 데이터 처리 기술을 넘어, AI 기반 업무 환경에서의 활용성과 신뢰성을 동시에 강화해 나간다는 계획이다.
The post 이파피루스, ‘하이브리드 OCR’로 속도·정확도 동시 개선… AI 출처 검증 기능까지 확장 appeared first on 벤처스퀘어.