독자 AI 1차 평가에서도 '최고점'
벤치마크·전문가·사용자 평가 모두 1위
선사용 후보상 논란에 저작권·적법성 변수로
'넥서스'로 학습 데이터 리스크 선제 관리
[서울=뉴스핌] 서영욱 기자 = 정부 '독자 인공지능(AI) 파운데이션 모델 프로젝트' 1차 평가에서 LG AI연구원의 'K-엑사원'이 최고점을 기록했다. 성능 1위라는 성과가 확인된 가운데, 생성형 AI 시대의 승부처는 학습 데이터의 적법성과 책임 구조로 옮겨가고 있다.
정부도 '선사용 후보상' 논란 이후 저작권 보호 강화를 시사하며 데이터 출처와 권리 관리의 중요성이 커지는 분위기다. LG는 학습 정보의 법적 리스크를 추적하는 AI 에이전트 '넥서스(NEXUS)'를 내세워, 성능 이후의 경쟁을 겨냥한 컴플라이언스 체계를 선제 구축하고 있다.

◆K-엑사원 1위, '성능 이후' 싸움이 시작됐다
16일 LG와 AI업계에 따르면 정부의 '독자 AI 파운데이션 모델 프로젝트' 1차 평가에서 LG AI연구원의 'K-엑사원(K-EXAONE)'이 최고점을 기록하며 2차 단계 진출을 확정했다. 벤치마크 평가와 전문가 평가, 사용자 평가에서 모두 최고점을 받았다는 게 LG의 설명이다. 성능 중심 경쟁이 치열해진 가운데, 이번 결과는 LG AI연구원이 기술력에서 우위를 입증했다는 신호로 해석된다.
LG의 '1위'는 단순한 성능 경쟁 이상의 의미를 남겼다. 생성형 AI가 산업의 기본 인프라가 되면서, 모델이 무엇을 학습했는지와 그 결과에 대한 책임이 기업의 리스크로 직결되고 있기 때문이다. 해외에서는 무단 학습을 둘러싼 저작권 소송이 이어지고 있다. 데이터 출처와 권리 구조를 정리하지 못하면 기술 성과와 별개로 법적·평판 부담을 떠안을 수 있다는 얘기다. 업계에서 "성능만으로는 부족하다"는 말이 생존 조건처럼 굳어지는 이유다.
정부도 지난 15일 최근 논란이 된 '선사용 후보상' 논란에 한발 물러섰다. 학습 데이터의 무단 활용을 사실상 용인한다는 비판이 커지자, 저작권 보호와 보상 체계를 강화하는 방향으로 정책 기조를 조정하는 분위기다.
◆"이 데이터, 써도 되나?"…넥서스가 먼저 묻는다
AI 학습 데이터의 권리 구조를 둘러싼 논의가 커지면서, 기업들도 사후 대응보다 개발 초기부터 리스크를 관리하는 체계를 갖춰야 하는 상황이다. LG AI연구원은 이 지점을 일찍부터 '설계 단계의 기술 과제'로 정의해왔다. AI 윤리를 선언이나 가이드라인에 그치지 않고, 학습 데이터의 권리 관계를 추적·관리하는 체계로 구현하겠다는 접근이다.
그 결과물이 지난해 초 공개한 AI 에이전트 '넥서스'다. 넥서스는 AI 학습 데이터셋의 생애주기(Life-Cycle)를 따라가며, 재배포 과정에서 발생하는 라이선스 충돌과 권리관계 불일치, 개인정보 포함 여부 등을 자동으로 감지해 위험도를 평가한다.

LG가 주목한 문제는 AI 학습 데이터셋이 하나의 파일처럼 단순한 덩어리가 아니라, 여러 데이터가 겹겹이 섞여 만들어진 '조합물'에 가깝다는 점이다. 이 데이터들은 다시 다른 데이터셋을 바탕으로 만들어지는 경우가 많아, 출처와 권리 조건이 복잡하게 얽힌다.
문제는 재배포되거나 다른 데이터와 결합되는 과정에서 라이선스 조건이 바뀌거나, 어디까지 사용 가능한지 기준이 흐려질 수 있다는 것이다. 한 번 불명확해진 권리 관계는 그대로 모델 개발 과정에 들어가 법적 리스크로 누적된다.
넥서스는 이런 구조를 따라가며 "이 데이터는 어디서 왔고, 어떤 조건으로 묶였는지"를 단계별로 확인한다. 그리고 각 단계에서 발견된 위험 요소가 최종 데이터셋 전체에 어떤 영향을 주는지까지 분석해 법적 안전성을 점검한다.
LG AI연구원은 넥서스가 엑사원 3.5 기반의 데이터 컴플라이언스 솔루션이라고 설명했다. 쉽게 말해, AI 학습에 쓰려는 데이터가 "법적으로 써도 되는지"를 빠르게 점검해주는 시스템이다.
넥서스는 웹에서 관련 문서와 라이선스 정보를 찾아보고, 데이터가 어떤 하위 데이터에 기반해 만들어졌는지(종속 관계)를 정리한 뒤, 최종적으로 위험 수준을 점수로 매긴다. 전문가가 수작업으로 검토할 때 드는 시간과 비용을 획기적으로 줄일 수 있다. 상업적 이용 가능 여부, 2차 저작물 작성 권한, 개인정보 포함 가능성 등 18개 항목을 종합해 점검하고, 결과는 7단계 위험등급으로 분류해 데이터 활용 여부를 판단할 수 있도록 했다.

◆모델 점수 넘어 '적법성·리스크 관리'로
정부가 '선사용 후보상' 논란을 잠재우며 저작권 보호 강화를 시사한 만큼, 앞으로 독자 AI 경쟁은 모델 점수만으로 끝나지 않을 가능성이 크다. 성능이 상향평준화될수록, 학습 데이터의 적법성·책임 구조·리스크 통제 능력이 기업의 실전 경쟁력을 가르는 조건으로 부상할 수 있다는 의미다.
임우형 LG AI연구원 공동 연구원장은 독자 AI 1차 평가 결과와 관련해 "엑사원에서 시작된 혁신은 이제 대한민국 산업 전반의 AI 생태계를 주도하는 핵심 엔진이 될 것"이라며 "K-엑사원의 독보적인 기술력을 바탕으로 글로벌 시장 내 기술 주도권을 확보하겠다"고 말했다.
LG AI연구원은 지난 2020년 구광모 LG그룹 회장의 결정으로 설립된 뒤 독자 파운데이션 모델의 중요성을 인지하고 선행 연구에 집중해왔다. 구광모 회장은 올해 신년사에서 "변곡점에서는 지금까지의 성공 방식을 넘어 새로운 혁신으로 도약해야 한다"며 '선택과 집중'을 강조한 바 있다. 독자 AI 1위 성적표 뒤에서 데이터 권리와 책임 구조까지 함께 설계해온 LG의 방식은, 성능 다음 단계의 경쟁이 무엇인지 보여주는 사례로 평가된다.
syu@newspim.com












