총 1만2600건·45GB 규모, 6월 말까지 시범사업
학습용·검색증강생성용·평가지원용 말뭉치 지원
[서울=뉴스핌] 채송무 기자 = 금융위원회는 지난해 12월 12일 발표한 '금융권 생성형 AI 활용 지원 방안'의 후속조치로 31일부터 '금융 특화 한글 말뭉치' 제공을 시작한다고 밝혔다.
![]() |
[서울=뉴스핌] 채송무 기자 = 금융위원회는 지난해 12월 12일 발표한 '금융권 생성형 AI 활용 지원 방안'의 후속조치로 31일부터 '금융 특화 한글 말뭉치' 제공을 시작한다고 밝혔다. [표=금융위원회] 2025.03.28 dedanhi@newspim.com |
'금융 특화 한글 말뭉치'란 금융 분야의 다양한 전문지식들을 AI 모델이 가공·처리·분석할 수 있는 형태로 모은 대규모 한국어 언어자료 집합으로, 국내 금융권에 특화된 AI 서비스를 개발하기 위해서는 필수적인 요소다.
그동안 금융회사들은 한국어로 된 금융 용어, 우리나라 금융 법규 등 전문화된 데이터가 부족해 금융에 특화된 업무를 수행함에 있어 AI를 활용하는 것에 어려움이 있었다. '금융권 AI 협의체' 논의 과정에서도 은행 등 모든 금융업권이 공통적으로 한국어로 된 금융 말뭉치의 필요성을 제기한 바 있다.
금융 특화 한글 말뭉치는 AI 모델의 금융 전문지식 학습과 답변의 정확도 제고, 성능과 윤리 평가 등에 활용할 수 있도록 다양한 형태로 제공된다.
먼저 금융 특화 한글 말뭉치는 AI 모델의 금융 전문지식 학습을 위한 학습용 말뭉치가 될 전망이다. 일반적인 AI 모델에 학습용 데이터를 적용할 경우, 한국어로 된 금융 용어에 대한 이해력과 국내 금융제도·법규 등에 대한 전문성을 향상시킬 수 있다.
금융 당국은 두 번째로 AI 모델이 외부의 최신 정보, 전문 데이터를 참조해 보다 정확한 답변을 도출하도록 하는 검색증강생성(RAG)용 말뭉치를 지원한다. 검색증강생성용 말뭉치는 금융소비자보호법 및 관련 참고자료, 전자금융거래법 등 연계법의 관련 조문을 활용하여 구축했다.
마지막은 AI 모델의 금융 지식, 추론능력 및 잠재적 유해성을 평가하기 위한 평가지원용 말뭉치다. 금융 당국은 학습데이터와 별도로 구축된 평가지원용 말뭉치를 활용해 AI의 객관적인 성능과 공정성을 검증한다.
이번에 제공되는 금융 공통분야 말뭉치는 총 1만2600건, 약 45GB 이상 규모이며 ▲사전학습용 6700건 ▲추가학습(Fine-tuning)용 1100건 ▲검색증강생성(RAG)용 3800건 ▲평가지원용 1000건으로 구성됐다.
금융 공통분야 말뭉치 이용을 희망하는 모든 금융회사는 금융결제원 데이터 공유 플랫폼을 통해 신청하고 말뭉치를 다운로드 받을 수 있다. 2025년 6월 말까지 진행되는 이번 시범사업 기간에는 금융회사들의 말뭉치 조기 활용을 촉진하고, 이용 기관들의 다양한 경험과 의견을 확보하기 위해 말뭉치를 무료로 제공할 예정이다.
dedanhi@newspim.com