AI 핵심 요약
beta- 아크릴이 14일 자체 개발한 ALLM.H가 KMLE 벤치마크에서 96.78% 정답률을 기록했다.
- 이는 Claude Opus 4와 GPT-5.1 등을 상회하며 Gemma 4 기반 국내 최초 파인튜닝 모델이다.
- 대형 병원 실증과 산업 확장을 통해 의료 AI 생태계를 구축한다.
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
[서울=뉴스핌] 이나영 기자= 아크릴이 자체 개발한 의료 특화 파운데이션 모델 '아름.H(ALLM.H)'가 한국 의사 국가시험(KMLE) 기출문항 기반 의료 AI 평가 벤치마크인 'KorMedMCQA Doctor Test'에서 96.78%의 정답률을 기록했다고 14일 밝혔다.
회사에 따름녀 이는 앤트로픽의 'Claude Opus 4(96.55%)', 오픈AI의 'GPT-5.1(90.11%)', 구글의 'Gemini 2.5 Pro(90.8%)'를 모두 상회하는 수준이다. 아크릴은 31B 규모의 경량 오픈소스 모델로 K-Med.ai가 실제 KMLE에서 달성한 96.4%에 비견되는 성능을 구현했으며, 서울대병원이 개발한 오픈소스 의료 모델 'HARI(89.2%)'보다 7.58%포인트 앞선 결과다.
ALLM.H는 구글의 최신 오픈소스 모델 'Gemma 4(31B)'를 기반으로 국내 최초 파인튜닝을 거쳐 개발됐다. 2022년부터 2024년까지의 KMLE 공식 기출 435문항으로 구성된 벤치마크 테스트에서 최고 수준의 성능을 낸 배경에는 아크릴의 데이터 정제 역량과 도메인 특화 학습 설계 역량이 있다. 아크릴은 2024년 Weights & Biases(W&B)가 운영하는 한국어 LLM 리더보드 '호랑이 벤치(Open Ko-LLM Leaderboard)'에서 오픈소스 부문 1위를 기록한 바 있다.

ALLM.H는 아크릴이 독자 개발한 산업 특화 파운데이션 모델 패밀리 ALLM(Acryl LLM)의 첫 번째 결과물이다. 아크릴은 이를 진료과별 특성을 반영한 패밀리 구조로 확장해 나갈 계획이다. ALLM.H를 앵커 모델로 삼아 각 전문 진료과에 최적화된 AI 생태계를 구축하고, 후속 모델들의 성능과 벤치마크 결과도 순차적으로 공개할 예정이다.
ALLM.H와 ALLM.H 패밀리 모델은 현재 아크릴이 수행 중인 보건복지부·과학기술정보통신부 주관 '닥터앤서 3.0' 및 'K-ARPA' 사업을 기반으로 국내 대형 병원에서 실증에 돌입할 예정이다. 연세의료원, 경북대학교병원 등 협력 병원을 중심으로 의료진의 임상 의사결정 지원, 의료 데이터 분석, 전문 진료과 상담 보조 등에 활용되며, 온프레미스 방식으로 배포돼 환자 데이터 보안을 확보할 계획이다.
박외진 아크릴 대표는 "31B 규모 모델로 Claude Opus 4와 GPT-5.1을 넘어서는 성능을 달성한 것은 모델의 크기보다 데이터 전략과 학습 파이프라인 설계가 핵심이라는 점을 보여준다"고 말했다. 이어 "이번에 검증된 특화 파인튜닝 기술은 향후 조나단 플랫폼에 탑재돼 의료뿐 아니라 금융, 법률, 제조 등 다양한 산업 도메인으로 확장될 예정"이라고 덧붙였다.
nylee54@newspim.com












