전체기사 최신뉴스 GAM 라씨로
KYD 디데이

KAIST, GPT-4 버전의 시각 멀티모달 성능 뛰어넘는 대형 언어모델 개발

기사입력 : 2024년06월20일 10:52

최종수정 : 2024년06월20일 10:52

공개형 멀티모달 LLM 'CoLLaVO'·'MoAI' 개발

[세종=뉴스핌] 이경태 기자 = 한국과학기술원(KAIST)은 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다.

MoAI 멀티모달 대형언어모델 성능 [자료=한국과학기술원] 2024.06.20 biggerthanseoul@newspim.com

연구팀이 개발한 첫번째 기술인 '콜라보(CoLLaVO)'는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증했다.

해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법인 '크레용 프롬프트(Crayon Prompt)'라는 시각적 프롬프트를 새롭게 제안했다.

시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 '듀얼 큐로라(Dual QLoRA)'를 제안했다.

연구팀은 이를 통해 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 전했다.

두 번째 대형언어모델인 '모아이(MoAI)'는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들었다는 게 연구팀의 설명이다.

기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용한다. 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 연구팀은 지적했다. 연구팀은 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.

노용만 교수는 "연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다"며 "모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것"이라고 말했다.

biggerthanseoul@newspim.com

[뉴스핌 베스트 기사]

사진
'취중진담' 전람회 출신 서동욱 사망…향년 50세 [서울=뉴스핌] 김연순 기자 = 1990년대 인기 듀오 '전람회' 출신인 서동욱 모건스탠리 프라이빗 에쿼티 부대표가 18일 지병으로 세상을 떠났다. 향년 50세. 서동욱은 휘문고와 연세대 동창인 싱어송라이터 김동률과 전람회를 결성해 1993년 MBC 대학가요제에서 '꿈속에서'로 대상을 받으며 등장했다. 서동욱 모건스탠리 프라이빗 에쿼티 부대표 [사진=모건스탠리 홈페이지] 전람회는 1994년 1집으로 정식 데뷔한 이후 1997년 해체할 때까지 세 장의 앨범을 냈다. 서동욱은 김동률과 전람회로 기억의 습작, 취중진담, 졸업 등의 히트곡을 냈다. 고인의 빈소는 서울 연세대 신촌 세브란스병원 장례식장 특실 1호에 마련됐고, 발인은 20일 오전 11시 40분, 장지는 서울시립승화원이다. y2kid@newspim.com 2024-12-18 21:50
사진
달러/원 환율 1,450원 돌파...15년래 최고 [서울=뉴스핌] 고인원 기자= 19일 달러/원 환율이 1450원도 돌파하며 15년 6개월 만에 최고치를 기록했다. 올해 마지막 연방공개시장위원회(FOMC) 정례 회의에서 미국 연방준비제도(Fed)가 예상대로 기준 금리를 0.25%포인트 인하했으나 내년 기준 금리 인하 속도를 줄일 가능성을 시사한 여파다. 연준은 18일(현지 시각) 이틀간 연방공개시장위원회(FOMC) 정례 회의를 마치고 기준 금리를 4.25~4.50%로 0.25%포인트(%p) 인하한다고 밝혔다. 이로써 연준은 9월과 11월에 이어 이달까지 세 번의 회의에서 연속으로 기준 금리를 내렸다. 연준은 별도로 공개한 경제 전망 요약(SEP)에서 내년 말까지 금리 인하 폭을 0.50%p로 제시했다. 이는 9월 1.00%p를 기대한 것에서 크게 축소된 수치다. 이 같은 예상대로면 연준은 내년 0.25%p씩 총 두 차례 금리를 낮추게 된다. 매파적인 연준의 내년 금리 전망에 이날 미 달러화는 2년 만에 최고 수준으로 올라섰고, 달러/원 환율은 한국 시간 19일 오전 6시 50분 기준 1453원으로 1450원도 넘어섰다. 이는 지난 2009년 3월 이후 약 15년 만에 최고치다. 지난 2017년 도널드 트럼프 당시 대통령이 제롬 파월 당시 연방준비제도(Fed) 이사를 차기 의장으로 지명했다. [사진=블룸버그] koinwon@newspim.com 2024-12-19 06:58
안다쇼핑
Top으로 이동