전체기사 최신뉴스 GAM
KYD 디데이
산업 ICT

속보

더보기

한컴, AI 학습용 PDF 데이터 추출 기술 오픈소스로 공개

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

듀얼랩과 PDF 데이터로더 공동개발…깃허브 통해 제공
벤치마크 지표에서 경쟁 오픈소스 대비 85% 성능 입증
AI 학습 데이터 보안 위협 '프롬프트 인젝션'까지 방지

[서울=뉴스핌] 이성화 기자 = 한글과컴퓨터(한컴)는 인공지능(AI) 학습 및 활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 공개했다고 17일 밝혔다.

이번에 공개된 '오픈데이터로더 PDF'는 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진으로, 글로벌 AI 생태계 확산을 위한 기술적 기반을 마련했다.

한글과컴퓨터가 공개한 오픈데이터로더 PDF 공식 깃허브 페이지. [사진=한글과컴퓨터]

PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않아 '데이터 감옥'이라 불릴 만큼 AI 개발 과정에서 큰 제약이 따랐다.

이번 오픈소스 프로젝트는 이러한 문제를 해결하기 위해 한컴이 지난 7월 PDF 기술 전문 기업 듀얼랩과 체결한 업무협약(MOU)의 첫 결실이다. 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하며 AI 생태계 확장을 목표로 하고 있으며 이번 기술 공개를 통해 본격적인 확산에 나섰다.

공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해 AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON, Markdown, HTML)로 변환한다.

특히 기존 경쟁 오픈소스 기술보다 우수한 성능을 입증했다. 공식 홈페이지에 공개된 벤치마크 테스트 결과, 사람의 읽기 순서를 측정하는 지표인 NID(Normalized Indel Distance)에서 타 기술 대비 85%라는 높은 수치를 기록하는 등 다양한 테스트에서 탁월한 성능을 보여줬다.

또한 금융·공공기관 등 민감한 데이터를 다루는 환경에서도 네트워크 연결 없이 완전 오프라인으로 작동해 데이터 유출과 외부 업로드로 인한 정보 노출 위험을 원천 차단한다. 이러한 오프라인 기반 보안성은 기업과 기관 단위 활용에서 중요한 기술적 장점으로 작용할 전망이다.

최근 AI 산업의 주요 화두로 떠오른 학습 데이터 안전성 문제에 대응하기 위한 전략도 담았다. 오픈데이터로더 PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이며 이를 통해 AI 학습 데이터의 안정성과 신뢰성을 동시에 보장한다.

한컴은 이번 오픈소스 공개를 단순한 기술 공유에 그치지 않고 AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진하고 있다. 이를 위해 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다.

정지환 한컴 최고기술책임자(CTO)는 "AI 트랜스포메이션(AX) 시대, 오픈소스는 더 이상 선택이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략"이라며 "이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다"고 말했다. 이어 "연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속해서 고도화하겠다"고 덧붙였다.

오픈데이터로더 PDF 프로젝트에 대한 자세한 정보와 활용 사례는 공식 홈페이지에서 확인할 수 있으며 오픈소스 코드는 깃허브 공식 저장소를 통해 제공된다.

shl22@newspim.com

[뉴스핌 베스트 기사]

사진
음주운전 부장판사 감봉 3개월 징계 [서울=뉴스핌] 홍석희 기자 = 서울중앙지법 소속 현직 부장판사가 음주운전으로 감봉 처분을 받았다. 23일 법조계에 따르면 대법원은 지난 3일 서울중앙지법 A 부장판사에게 감봉 3개월 징계를 내렸다. A 부장판사는 지난해 12월 13일 오후 3시 1분께 면허 정지 수준인 혈중알코올농도 0.071% 상태로 중랑구 사가정역 근처 한식당에서 약 4㎞가량 승용차를 운전하다 적발된 것으로 알려졌다. 대법원은 "법관으로서의 품위를 손상하고 법원의 위신을 떨어뜨렸다"고 했다. A 부장판사는 현재 서울중앙지법 민사 재판부에 소속돼 있다. 서울중앙지법 소속 현직 부장판사가 음주운전으로 감봉 처분을 받았다. 서울 서초동 서울중앙지법. [사진=뉴스핌DB] hong90@newspim.com 2026-02-23 09:29
사진
'재명이네 마을'서 정청래 강제 퇴출 [서울=뉴스핌] 조승진 기자 = 정청래 더불어민주당 대표와 이성윤 최고위원이 이재명 대통령의 팬 카페인 '재명이네 마을'에서 강제 퇴출당했다. 네이버 카페 '재명이네 마을' 운영진은 22일 정 대표와 이 최고위원의 강제 탈퇴에 관한 투표 결과 이들의 강퇴가 확정됐다고 밝혔다. 투표 결과에 따르면 전체 투표수 1231표 중 찬성 1001표(81.3%), 반대 230표(18.7%)였다. '재명이네 마을' 카페에 올라온 더불어민주당 정청래 대표와 이성윤 최고위원이 강제 탈퇴 공지. [사진=카페 캡쳐] 운영진은 "정청래, 이성윤 의원은 마을에서 재가입 불가 강제 탈퇴 조치된다"고 했다. 운영진은 "분란을 만들고 아무것도 책임지지 않는 당 대표, 사퇴하라 외쳐 보지만 '너희들은 짖어라' 하는 듯한 태도"라며 "한술 더 떠 정치 검찰 조작 기소 대응 특위 수장으로 이성윤을 임명하며 분란에 분란을 가중하는 행위에 더 이상 용납이 되지 않는다"고 했다. 이어 "한때는 이 마을에도 표심을 얻기 위해 뻔질나게 드나들며 수많은 글을 썼었지만, 지난 당 대표 선거 당시 비판받자 발길을 끊었다"며 "필요할 때는 그렇게 마을을 이용하더니 달면 삼키고 쓰면 뱉는가? 우리가, 지지자들이 그렇게 만만한가?"라고 했다. 또 "이곳 '재명이네 마을'은 오직 이재명 대통령을 최우선으로 지지하는, 존경하고 사랑하는 공간"이라며 "운영자로서 할 수 있는 소심한 조치는 그저 이 공간에서 강퇴하는 것뿐이라 판단한다"고 했다. 그러면서 "이 마을은 운영자 개인 것이 아닌, 마을 주민들과 함께 가꿔온 소중한 공간이므로 이 절차에 대해 주민들과 소통하여 진행하고자 한다"며 "그 결과는 온전히 당 대표께서 받아들이시라"고 했다. '재명이네 마을' 매니저는 그동안 정 대표와 이 최고위원이 이 대통령의 행보와 엇박자를 보이며 당내 분란을 일으켰다고 주장했다. 특히 정 대표가 강행한 조국혁신당과의 합당 제안, '1인 1표제' 추진 등을 문제라고 봤다. 이 최고위원에 대해서는 특검 후보 추천 논란과 '1인 1표제' 관련 중앙위원회 투표 과정에서 제기된 사찰 의혹 등을 강퇴 배경으로 설명했다.  chogiza@newspim.com 2026-02-23 11:30
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동