[서울=뉴스핌] 양태훈 기자 = 업스테이지는 14일, 한국어 데이터 부족 문제를 해결하고, 고성능 거대 언어 모델(Large Language Model/LLM) 개발을 위한 '1T 클럽'을 발족한다고 밝혔다. '1T 클럽'은 '1 Trillion 토큰 클럽'을 줄인 것으로 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들로 구성된다.
업스테이지는 1T클럽을 통해 한국어 데이터를 확보하고 공유함으로써, 한국문화 정서를 담아낼 수 있는 고품질의 LLM을 개발한다는 계획이다.
이에 업스테이지는 현재 20여 개 언론사 및 기업, 학계 등 데이터 제공자들과 파트너십을 위한 긴밀한 협의를 진행 중이다. 또한 다양한 업계 리딩 기업들과 프라이빗 LLM 구축 협의는 물론 한국어 LLM의 발전에 기여할 다양한 분야의 파트너사들과 협력을 추진할 계획이다. '1T 클럽'에 관심 있는 기관은 업스테이지 공식 홈페이지를 통해 신청서를 제출할 수 있다.
[사진=업스테이지] |
업스테이지 측은 "한국어 데이터는 대한민국 LLM 발전에 필수적인 자원이지만, 현재 상당히 부족하고 저작권의 문제에도 직면해있다"며, "외국어 중심으로 학습된 빅테크의 LLM들은 한국어 실력은 물론 정서나 지역적 정보에 취약해 국내 기업들이 활용할 프라이빗 LLM 발전에 걸림돌이 되고 있다"고 전했다.
또 "크롤링을 통한 AI 학습으로 인해 저작권 이슈 등 부작용이 발생하는 문제 해결은 물론, 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영될 계획"이라며, "참여 파트너사에게 데이터 제공량에 비례해 API 사용료를 할인해주고, LLM의 API 사업으로 창출될 수익을 공유하는 등 두가지 방식으로 혜택을 제공할 계획"이라고 덧붙였다.
API 사용료 할인의 경우, 파트너사는 기여 토큰수에 비례해 업스테이지가 자체 제작하는 최고 성능의 LLM의 API를 할인된 가격에 사용, 다양한 애플리케이션에 활용할 수 있다. 수익을 공유하는 'Profit Share 방식'은 업스테이지가 LLM의 API 사업으로 수익을 창출할 경우, 그 중 일부를 파트너사들과 공유하는 방안으로 운영된다. 업스테이지는 이를 위해 LLM API 사업 수익의 일부를 재원으로 활용, 1T 클럽 수익 공유에 할당할 예정이며 각 파트너사들은 자신이 기여한 데이터 양에 비례하여 수익을 받을 수 있다.
아울러 업스테이지는 파트너사들이 제공하는 데이터를 모델의 한글 프리트레이닝(pre-training) 학습 용도로만 사용, 일반적인 지식과 글 요약, 정리 등의 능력만 가지게 되고, 원문 추출은 불가능하도록 운용할 계획이다. 또한 기타 용도로 사용하거나 외부로 유출하지 않는 것은 물론 자체적인 탈옥방지(Jailbreak Check) 기술을 통해 원문 유출을 원천적으로 차단할 방침이다.
dconnect@newspim.com