전체기사 최신뉴스 GAM 라씨로
KYD 디데이

서울과기대·테디썸, 라마3-70B 기반 한글 특화 LLM '블라썸' 세계최초 공개

기사입력 : 2024년05월09일 14:21

최종수정 : 2024년05월09일 14:21

라마3 70B 모델에 한국어 확장 첫 사례
업스테이지·솔트룩스·마음AI에 도전장
블라썸, 기본 모델 대비 89% 답변 향상

[세종=뉴스핌] 이경태 기자 = 국내 연구진과 인공지능(AI) 기업이 공동연구를 통해 메타의 오픈소스 거대언어모델(LLM)을 활용한 한국어 어휘 확장 대형 모델을 세계 최초로 개발했다. 

이미 오픈소스 기반 LLM 개발 업체인 업스테이지, 솔트룩스, 마음AI에 한발 앞선 기술력으로 도전장을 내민 셈이다.

서울과학기술대학교 다층퍼셉트론(MLP)연구실과 테디썸은 9일 오후께 한국어 최초 70B급 한국어-영어 초거대 언어모델 블라썸(Bllossom)을 완전 공개했다. 이는 현재 가장 좋은 성능으로 평가받는 공개 언어모델인 라마3(LLama3-70B) 기반 모델 중 어휘 확장 모델로는 전세계에서 최초로 꼽힌다.

메타는 지난달 18일(현지 시간) 자체 개발한 오픈소스 거대언어모델(LLM)인 라마(Llama)의 3세대 버전을 무료로 출시했다. 라마 3는 8B 및 70B 매개변수 두 모델로 우선 공개됐다. 라마3은 15조 개의 토큰으로 학습됐다. 

이 가운데 70B 모델은 오픈AI가 개발한 GPT-3.5보다 성능이 좋고 GPT4 성능에 근접한 수준이라는 평가를 일부 받는다. 라마3는 한국어에 특화돼 있는 모델로 평가된다.

테디썸이 라마3 70B 모델을 활용해 자체 개발한 한국어 특화 확장 거대언어모델인 '블라썸'을 허깅페이스에 9일 게재했다. 실제 전체 공개는 이날 오후께 진행된다. [사진=테디썸] 2024.05.09 biggerthanseoul@newspim.com

서울과기대와 테디썸은 라마3 70B모델에 추가적인 어휘확장을 했다.

어휘 확장은 특정 언어의 단어를 추가해 심층적인 표현이 가능하도록 하는 방법이다. 70B급 거대 언어모델은 어휘를 확장하면 새로운 어휘의 표현학습을 위해 엄청난 추가 학습시간 및 비용이 소요된다. 이렇다보니 70B급 모델에 어휘확장이 시도된 사례는 한국어에서는 아직 찾아볼 수 없다. 

이번 블라썸 모델은 서울과기대 슈퍼컴퓨팅센터의 컴퓨팅 지원을 토대로 대량의 GPU를 활용해 어휘확장 및 영어-한국어 지식 연결 학습이 가능했던 것으로 파악됐다.

임경태 서울과기대 인공지능응용학과 교수 연구팀은 이번 모델 개발을 위해 ▲한국어 표현력 강화를 위한 3만개가 넘는 한국어 어휘 추가 ▲한국어 어휘 표상 학습을 위한 대규모 사전학습 ▲한국어-영어 지식 연결을 위한 Parallel 학습 ▲한국어-영어 지식 표현을 위한 지시미세조정(Instruction Tuning) ▲사용자 피드백(feedback) 기반의 강화학습 등을 진행했다.

방대한 영어 지식을 한국어와 연결시키기 위해 직접 구축한 병렬(Parallel) 데이터 셋을 활용했다는 점과 언어학자들이 직접 구축한 정교한 지시미세조정 데이터가 성능을 크게 향상시켰다는 점이 이번 모델 개발에서 주목할 만한 요소다.

테디썸은 이번에 개발한 모델을 전체 공개해 개별적인 추가 학습과 상업적 이용이 가능하다는 점을 강조했다.

이번 모델은 한국어 토큰 확장으로 인해 25% 확장된 컨텍스트 활용이 가능하다. 인간평가와 GPT4 한국어 답변 선호도 평가 결과 GPT3.5와 유사하거나 약간 앞선 결과를 보인 바 있다. 라마3 70B 기본모델 대비 한국어 답변에 대해 89% 더 높은 답변 선호도 평가를 기록했다.

테디썸은 이미 8B 소형 모델은 전세계 기술 공유 플랫폼인 허깅페이스에 공개됐고 70B 거대모델도 이날 함께 공개했다. 개인 GPU에서 작동 가능한 4bit 양자화된 모델과 직접 활용해볼 수 있는 데모도 함께 내놓는다.

함영균 테디썸 대표는 "기존 빅테크에서만 연구개발하고 공개되지 않던 70B 거대 모델을 중소규모 회사 및 연구 그룹에서도 활용할 수 있도록 초거대 언어모델의 민주화에 기여했다는 점에서 의미있는 첫 발자국이라 생각한다"고 말했다.

한편 국내에서 라마3 소형 모델인 8B를 기반으로 자체 LLM 모델을 개발해 공개한 기업은 솔트룩스, 마음AI 등이다. AI 기업 데이터드리븐의 이준범 수석 AI 연구원도 개인적으로 8B 기반 모델을 공개한 바 있다.

biggerthanseoul@newspim.com

[뉴스핌 베스트 기사]

사진
尹 지지율, 2.6%p 오른 32.7% …김건희 논란 사과 긍정 영향 [서울=뉴스핌] 박성준 기자 = 윤석열 대통령의 지지율이 소폭 상승해 30%대 초반을 기록했다는 여론조사 결과가 16일 발표됐다. 이재명 대표와의 영수회담과 취임 2주년 기자회견에서 김건희 여사 논란에 대해 사과한 것이 영향을 미친 것으로 풀이된다.  종합뉴스통신 뉴스핌 의뢰로 여론조사 전문업체 미디어리서치가 지난 13~14일 전국 만 18세 이상 남녀 1015명에게 물은 결과 윤 대통령의 국정운영에 대한 긍정평가는 32.7%로 집계됐다. 부정평가는 65.0%로 나타났다. '잘 모름'에 답한 비율은 2.3%다. 윤 대통령이 지난 9일 취임 2주년 기자회견에서 배우자 김건희 여사의 명품 가방 수수 의혹에 처음으로 사과하는 등 자세를 낮췄지만, 지지율은 2.6%p 상승하는 데 그쳤다. 부정평가는 1.7%p 하락했다. 긍정평가와 부정평가 간 격차는 32.3%포인트(p)다. 연령별로 보면 40대에서 긍·부정 평가 격차가 극명하게 드러났다. 만 18세~29세에서 '잘함'은 29.3% '잘 못함' 68.7%였고, 30대에서는 '잘함' 31.5% '잘 못함' 65.9%였다. 40대는 '잘함' 25.6% '잘 못함' 73.2%, 50대는 '잘함' 26.9% '잘 못함' 71.8%로 집계됐다. 60대는 '잘함' 34.9% '잘 못함' 62.5%였고, 70대 이상에서는 '잘함'이 51.8%로 '잘 못함'(43.7%)보다 높게 나타났다. 지역별로는 서울 '잘함' 27.8%, '잘 못함'은 70.8%로 집계됐다. 경기·인천 '잘함' 32.6% '잘 못함' 65.9%, 대전·충청·세종 '잘함' 36.0% '잘 못함' 61.0%, 부산·울산·경남 '잘함' 40.3% '잘 못함' 58.0%로 나타났다. 대구·경북은 '잘함' 43.8% '잘 못함' 51.7%, 전남·광주·전북 '잘함' 16.0% '잘 못함' 82.2%로 나타났다. 강원·제주는 '잘함' 31.6% '잘 못함' 60.1%로 집계됐다. 성별로도 남녀 모두 부정평가가 우세했다. 남성은 '잘함' 28.8% '잘 못함' 68.9%, 여성은 '잘함' 36.5% '잘 못함' 61.3%였다. 김대은 미디어리서치 대표는 윤 대통령 지지율 상승 배경에 대해 "취임 2주년 기자회견과 김건희 여사 의혹 사과 이후 소폭 반등 했다"면서도 "향후 채상병 및 김 여사 특검, 의대정원 문제, 민생경제 등 현안에 대해 어떻게 풀어갈지에 따라 지지율이 달라질 것"이라고 분석했다. 차재권 부경대 정치외교학과 교수는 "영수회담, 기자회견, 김 여사 논란 사과 등으로 지지율이 소폭 상승했다"면서도 "보여주기식 소통이 아니라 국정운영 방향을 근본적으로 바꾸지 않으면 장기적으로 지지율은 상승하기 어려울 것"이라고 내다봤다. 이번 여론조사는 성·연령·지역별 인구비례 할당 추출 방식으로 추출된 표본을 구조화된 설문지를 이용한 무선(100%) ARS 전화조사 방식으로 실시했으며 응답률은 2.8%, 표본오차는 95% 신뢰수준에 ±3.1%p다. 통계보정은 2024년 1월말 행정안전부 주민등록 인구통계를 기준으로 성별 연령별 지역별 가중 값을 부여(셀가중)했다. 자세한 내용은 중앙선거여론조사심의위원회 홈페이지를 참조하면 된다. parksj@newspim.com 2024-05-16 06:00
사진
이란 대통령 탄 헬기 추락…'악천후' 탓 수색 난항으로 생사 불명 [시드니=뉴스핌] 권지언 특파원 = 에브라힘 라이시 이란 대통령 일행을 태운 헬기가 19일(현지시간) 추락했지만 기상 악화로 수색 활동이 난항을 겪으면서 아직까지 생사 여부가 불투명한 상황이다. 이날 이란 내무부는 라이시 대통령이 탑승한 헬기가 북서부 동아제르바이잔주(州) 중부 바르즈건 인근의 디즈마르 산악 지대에 추락했다고 밝혔다. 라이시 대통령은 이날 일함 알리예프 아제르바이잔 대통령과 국경 인근에 건설한 아라스강의 댐 준공식에 참석했다가 돌아오는 길이었다. 사고 헬기에는 라이시 대통령과 함께 호세인 아미르압돌라히안 외무장관, 말리크 라흐마티 동아제르바이잔 주지사, 타브리즈 지역 종교지도자 아야톨라 모하마드 알하셰미, 경호원 등이 탑승한 것으로 알려졌다. 현지 언론은 앞서 사고 헬기가 비상착륙 했다고 보도했다가 내무부 확인을 거친 뒤 추락으로 표현을 바꿨다. 아흐마드 바히디 이란 내무장관은 "사고 접수 후 구조대 40개 팀을 급파했으나 악천후와 험한 산악 지형 때문에 수시간이 지났지만 구조대가 사고 현장에 아직 도착하지 못했다"고 말했다. 헬기 추락 인근 지역에 구조대가 급파됐으나 안개로 시야가 확보되지 않은 모습이다. [사진=로이터 뉴스핌] 2024.05.20 kwonjiun@newspim.com 이란 정부 관계자는 로이터통신에 "헬기 추락으로 라이시 대통령과 압돌라히안 외무장관의 생사가 위기"라며 "우리는 여전히 희망을 버리지 않고 있지만 현장에서 나오는 정보는 매우 우려스럽다"고 말했다. 사고 헬기에 타고 있던 승무원 한 명과 또 다른 탑승자 한 명이 구조대원들과 접촉했다는 증언도 나왔고, 헬리콥터 위치를 파악했다는 보도도 나왔으나 국제적십자사 조직인 이란 적신월사는 보도를 부인했다. 이란 최고 지도자인 아야톨라 알리 하메네이는 헬리콥터가 추락한 이후 라이시의 안전을 기원한다면서도 이번 사태로 국정 혼란이 발생하지는 않을 것이라고 말했다. 이어 "우리는 신께서 존경하는 라이시 대통령과 그의 동료들을 국가의 품으로 돌려주시기를 바란다. 우리 모두는 이들의 안전을 위해 기도해야 한다"고 덧붙였다. 아제르바이잔, 아르메니아, 이라크, 튀르키예 등 인근 국가와 사우디아라비아, 러시아 등은 구조와 수색에 적극 협력하겠다는 뜻을 밝혔다. 레제프 타이이프 에르도안 튀르키예 대통령은 성명을 내고 "헬기 사고 소식에 깊은 슬픔을 느낀다"며 수색에 필요한 모든 지원을 아끼지 않겠다고 했다. 러시아에서는 마리아 자하로바 외교부 대변인이 "실종 헬기 수색과 사고 원인 조사에 필요한 모든 도움을 건넬 준비가 돼 있다"고 밝혔다. 사우디아라비아 외무부는 성명에서 "이 어려운 상황에서 이란 이슬람 공화국을 지지하고 있으며 이란이 필요로 하는 모든 지원을 제공할 준비가 돼 있음을 확인했다"고 밝혔다. 미국과 유럽 등 서방국도 이번 사고를 예의주시 중이다. 백악관은 조지아주를 방문 중인 조 바이든 미국 대통령이 사고를 보고받았다고 밝혔고 미 국무부는 성명을 통해 라이시 대통령이 탄 헬기 사고 보도를 주의 깊게 보고 있다고 밝혔다. 샤를 미셸 유럽연합(EU) 정상회의 상임의장은 소셜미디어 엑스에 글을 올려 "이란 대통령과 외무장관을 태운 헬기가 예기치 않게 비상 착륙했다는 뉴스를 보고 있다"며 "EU 회원국 및 파트너들과 함께 상황을 긴밀히 주시 중"이라고 전했다. kwonjiun@newspim.com 2024-05-20 05:35
안다쇼핑
Top으로 이동